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深圳 国泰 安 教 育 技术 股份 有 限 公司 是 
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领导 者 ,致力 于 为 教育 业 和 金融 业 提供 一 流 
产品 、 增 值 服务 及 软 硬 件 整体 解决 方案 , 
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在 大 数据 时 代 ,R 以 其 强大 的 数据 分 析 挖 掘 ,可 视 化 绘图 等 功能 , 越 来 越 受到 社会 各 个 领域 的 青睐 。 
现在 ,R 的 计算 引擎 性能、 程序 包 都 得 到 了 提升 ,其 中 R 与 大 数据 分 析 平台 Hadoop 的 结合 ,实现 了 R 对 
大 数据 的 分 析 式 处 理 分 析 。 这 些 不 仅 大 大 扩展 了 R 的 应 用 ,也 扩大 了 R 在 各 行业 的 需求 。 

为 了 更 好 地 适应 新 形势 ,掌握 大 数据 分 析 处 理 的 相关 知识 是 很 有 必要 的 。 本 书 从 理论 基础 ,方法 、 实 
证 三 方面 详细 地 阐释 了 R 和 RHadoop 的 相关 理论 ,技术 以 及 应 用 ,使 读者 了 解 大 数据 的 基础 概念 ,掌握 R 
以 及 Rhadoop 大 数据 分 析 技 术 。 本 书 不 仅 适合 高 等 院 校 的 各 相关 专业 的 本 专科 生 ,研究 生 , 也 适合 零 编程 
基础 的 科研 人 员 以 及 对 大 数据 分 析 技 术 感 兴趣 的 人 士 阅读 。 本 书 在 内 容 的 选择 和 结构 的 安排 上 进行 了 深 
入 的 思考 ,使 得 不 论 是 R 或 RHadoop 的 初学 者 还 是 具备 一 定 相 关 专 业 知识 的 人 员 都 能 从 本 书 中 得 到 一 定 
的 收获 或 启发 。 
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大 数据 时 代 ,R 被 拉 到 了 潮流 尖端 ,作为 免费 的 开源 软件 , 随 着 加 入 的 人 数 增多 ,R 的 计 
算 引 擎 ,性 能 、 各 种 程序 包 都 得 到 了 改进 和 升级 ,其 中 R 和 Hadoop 的 结合 RHadoop 实现 了 
大 规模 数据 的 分 布 式 处 理 分 析 ,RHive 包 将 R 语 言 与 Hive 连接 ,可 以 通过 R 快速 访问 存储 
在 Hive 的 大 数据 集 ,这 一 切 让 R 获得 了 新 生 。 为 了 更 好 地 适应 新 形势 ,国泰 安 联合 中 科 院 
先进 院 于 2014 年 10 月 成 立 了 金融 大 数据 研究 中 心 。 鉴 于 此 ,国泰 安 大 数 据 事 业 部 群 组 织 
专家 学 者 推出 了 《大 数据 分 析 : R 基础 及 应 用 ) 一 书 ,该 书 具 有 以 下 几 个 方面 的 特色 。 

1. 实 训 性 强 

目前 ,市 面 上 流通 的 R 语 言 经 济 金 融 建 模 系列 教材 不 胜 枚 举 。 本 书 的 特色 在 于 选取 特 
定 的 专题 来 解决 一 些 实际 问题 ,让 读者 学 习 如 何 使 用 R 语言 进行 实证 建 模 。 同 时 ,本 书 也 
给 出 了 一 些 非常 有 价值 的 总 结 和 后 续 思 考 , 以 供 读者 研究 。 

2. 编排 体系 合理 

整个 的 结构 按照 “大 数据 简介 一 R 语言 基础 知识 一 数据 分 析 功 能 一 专题 实证 研究 一 
RHadoop 案例 分 析 ” 这 样 的 思路 组 织 全 书 , 既 方便 读者 (特别 是 初学 者 ) 在 了 解 大 数据 概念 
和 技术 的 基础 上 学 习 R 软件 的 操作 和 简单 编程 ,也 帮助 他 们 快速 地 用 R 语言 建立 模型 ,并 
作出 分 析 和 结果 论证 ,有 大 量 的 案例 可 作 参 考 。 

3. 考虑 不 同 群 体 的 阅读 偏好 和 水 平 

本 书 涉及 面 广 , 在 专题 实证 研究 部 分 涵盖 了 多 个 领域 ,包括 金融 时 间 序 列 建 模 专题 \ 动 
态 面 板 数 据 专题 .大 数据 时 代数 据 挖掘 专题 ,机 器 学 习 专 题 和 信息 可 视 化 专题 ,充分 展示 了 
当前 该 领域 的 需求 和 R 的 强大 优势 。 

本 书 适合 没有 编程 基础 的 科研 人 员 及 大 数据 分 析 人 员 使 用 。 从 事 经 管 类 的 学 术 研 究 往 
往 都 需要 建 模 及 数据 作为 支撑 。 本 书 分 为 三 大 部 分 进行 介绍 , 即 理论 基础 十 方法 十 实证 。 
理论 基础 分 为 两 个 章节 ,主要 介绍 大 数据 的 基础 知识 和 相关 技术 。 方 法 部 分 分 为 4 个 章节 ， 
其 中 第 3 章 主 要 对 R 语言 进行 简单 的 介绍 ,第 4 章 是 R 语言 的 操作 讲解 ; 第 5 章 将 介绍 
语言 一 大 特色 一 一 可 视 化 图 表 及 相关 统计 分 析 的 R 语言 实现 ; 第 6 章 将 对 R 语言 数据 分 
析 处 理 进 行 一 个 简单 介绍 。 实 证 部 分 包括 专题 实证 研究 和 RHadoop 案例 分 析 , 其 中 专题 
实证 研究 介绍 4 个 专题 ,给 出 不 同 的 实际 案例 ,循序 渐进 地 讲解 如 何 利 用 R 语言 进行 实证 
建 模 ,包括 时 间 序 列 模型 动态 面板 数据 模型 .数据 挖掘 及 信息 可 视 化 。 这 些 模 型 既 涵 盖 了 
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理论 的 指导 ,又 附 有 程序 的 说 明 及 结果 的 验证 ,同时 还 包括 对 模型 进一步 的 延伸 与 思考 。 
RHadoop 案例 分 析 部 分 介绍 在 RHadoop 环境 下 R 的 基本 操作 及 8 个 案例 ,包括 回归 分 析 、 
logistic 分 析 、 判 别 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 商 品 推荐 算法 及 差异 分 析 , 针 对 
不 同 的 分 析 方法 介绍 算法 的 原理 和 RMapReduce 编程 实现 。 

本 书 编写 组 希望 (大 数据 分 析 : R 基础 及 应 用 ;一 书 可 以 对 广大 读者 有 所 帮助 ,相信 读 
者 能 收获 以 下 几 点 : 

1. 掌握 大 数据 的 基础 概念 和 R 处 理 大 数据 的 机 制 ,并 深入 地 了 解 R 语言 ,能够 掌握 R 
编程 的 基本 技能 ,程序 注释 非常 清楚 ,易学 易 懂 。 

2. 熟练 掌握 从 建 模 到 利用 R 语言 对 数据 进行 实证 的 整个 过 程 。 

3. 可 以 学 习 人 金融 时 间 序 列 建 模 , 数 据 挖掘 等 领域 的 一 些 比较 经 典 和 前 沿 的 热门 模型 。 

4. 能 够 学 习 到 不 同学 科 之 间 的 交叉 应 用 ,包括 统计 学 与 金融 ,数学 与 金融 等 一 系 
列 知识 。 

5. 熟悉 RHadoop 环境 ,掌握 RMapReduce 编程 ,实现 在 RHadoop 环境 下 进行 大 数据 
分 析 。 

限于 编者 的 能 力 和 时 间 ,本 书 难 免 存 在 丝 漏 或 不 足 之 处 ,欢迎 读者 批评 指正 。 
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大 数据 概述 


大 数据 时 代 早 已 到 来 《大 数据 时 代 》 的 作者 维克托 。 迈 尔 。 舍 恩 伯 格 说 ,世界 的 本 质 就 
是 数据 ,大 数据 将 开始 一 次 重大 的 时 代 转 型 。 其 实 早 在 1980 年 ,美国 著名 未 来 学 者 托 夫 勒 
便 在 (第 三 次 浪潮 ) 一 书 中 提出 “数据 就 是 财富 ”, 将 大 数据 热情 地 赞颂 为 “第 三 次 浪潮 的 华 彩 
乐章 ”。 作 为 云 计算 领域 的 重要 延伸 ,大 数据 正在 引领 信息 革命 进入 新 的 时 代 。2001 年 ,全 
球 最 具 权威 的 IT 研究 与 顾问 咨询 公司 Gartner 提出 大 数据 面临 4 个 V 的 挑战 ;《 自 然 ) 杂 
志 (2008 年 ) 推 出 (大 数据 ) 专 刊 ,全 方面 介绍 大 数据 问题 ; 美国 总 统 奥巴马 (2012 年 ) 将 数据 
定义 为 "未 来 的 新 石油 >。2013 年 ,Gartner 在 一 篇 报告 中 指出 ,64% 的 受 访 企 业 都 表示 他 们 
正在 或 是 即将 进行 大 数据 工作 。 信 息 技术 、 计 算 机 技术 和 互联 网 技术 的 迅速 发 展 ,使 得 人 类 
社会 各 类 数据 呈现 出 爆炸 性 增长 ,对 这 些 复 杂 大 数据 的 有 效 管理 , 现 已 成 为 当前 社会 的 热点 
问题 。 


1.1 大 数据 的 概念 


大 数据 (Big Data) ,或 称 为 巨 量 资料 , 指 的 是 所 涉及 的 资料 量规 模 巨大 到 无 法 通过 目前 
主流 软件 工具 ,在 合理 时 间 内 达到 撒 取 、 管 理 ` 处 理 并 整理 成 为 帮助 企业 经 营 决 策 目 的 的 资 
讯 。 大 数据 一 般 指 在 10TBCITB=1024GB) 规 模 以 上 的 数据 量 , 其 基本 特征 可 以 用 4 个 V 
来 总 结 : 数据 规模 大 (Volume) ,数据 类 别 多 (Variety)、 数 据 处 理 速度 快 (Velocity)、 价 值 密 
FEAR CValue)®, 

然而 “大 数据 ?的 概念 远 不 止 大量 的 数据 (TB) 和 处 理 大 量 数据 的 技术 ,或 者 所 谓 的 “4 
个 V? 之 类 的 简单 概念 ,而 是 涵盖 了 人 们 在 大 规模 数据 的 基础 上 可 以 做 的 事情 ,而 这 些 事情 
在 小 规模 数据 的 基础 上 是 无 法 实现 的 。 换 句 话说 ,大 数据 让 我 们 以 一 种 前 所 未 有 的 方式 , 通 
过 对 海量 数据 进行 分 析 , 获 得 有 巨大 价值 的 产品 和 服务 或 深刻 的 洞 见 ,最 终 形 成 变革 之 力 。 


®© http://www. cfern. org/wjgg/wjggDisplay. asp? Id 一 2353. 
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1.2 大 数据 的 特征 


大 数据 具有 以 下 4 个 基本 特征 : 数据 规模 大 数据 类 别 多 、 数 据 处 理 速度 快 . 价 值 密 

1. 数据 规模 大 

大 数据 的 基本 属性 是 数据 量 巨大 。 目 前 ,各 个 行业 中 的 各 个 企业 每 天 都 会 产生 大 量 的 
数据 ,数据 呈 爆 炸 式 的 增长 ,数据 量 已 从 TB 级 别 跃升 到 PB 级 别 , 甚 至 到 了 EB 数量 级 。 面 
对 海量 数据 ,传统 的 数据 库 系统 处 理 能 力 已 经 难以 应 对 ,而 且 数据 量 仍 在 大 规模 增长 ,产生 
数据 的 来 源 也 变 得 更 加 多 样 化 。 

2. 数据 类 别 多 

大 数据 除了 传统 的 商业 活动 产生 的 数据 外 ,还 包括 互联 网 上 社交 媒体 产生 的 文本 数据 
及 时 刻 产生 的 传感器 数据 等 。 数 据 类 型 除了 结构 化 数据 外 ,还 有 半 结 构 化 和 非 结构 化 数据 ， 
如 图 片 、 网 页 视频 等 ,数据 种 类 繁多 。 

3. 数据 处 理 速 度 快 

大 数据 和 传统 数据 挖掘 最 显著 的 一 个 区 别 就 是 大 数据 要 求 处 理 速度 快 。 面 对 如 此 大 规 
模 的 数据 ,有 效 处 理 数据 的 效率 也 就 牵 系 着 企业 的 命运 。 对 数据 的 实时 处 理 、 分 析 及 反馈 变 
得 十 分 重要 ,创建 实时 数据 已 经 成 为 一 种 趋势 。 

4. 价值 密度 低 

价值 密度 往往 与 数据 量 成 反比 ,在 大 量 数据 中 有 用 的 信息 可 能 是 非常 少 的 ,而 且 要 有 效 
地 获取 这 些 有 用 的 信息 也 是 比较 困难 的 。 比 如 ,连续 的 监控 产生 大 量 的 视频 信息 ,而 我 们 需 
要 的 数据 可 能 就 只 有 一 两 秒 。 针 对 大 数据 价值 密度 低 这 一 特征 ,如 何 有 效 地 挖掘 出 其 中 有 
用 信息 变 得 尤为 重要 。 


1.3 大 数据 的 产生 


大 数据 的 产生 是 计算 机 和 网 络 通信 技术 被 广泛 运用 的 必然 结果 。 互 联网 ,移动 互联 网 、 
物 联 网 、 云 计算 、 社 交 网 络 等 新 一 代 信息 技术 的 发 展 对 大 数据 的 产生 起 到 了 促进 的 作用 。 数 
据 产生 方式 的 变化 表现 为 以 下 4 个 方面 。 

(1) 数据 产生 由 企业 内 部 向 企业 外 部 扩展 。 

(2) 数据 产生 由 Webl.0 向 Web2.0 扩展 。 

(3) 数据 产生 由 互联 网 向 移动 互联 网 扩展 。 

(4) 数据 产生 由 计算 机 或 互联 网 (IT) 向 物 联网 (IOT) 扩 展 。 

这 4 个 方面 的 变化 让 数据 产生 的 源头 成 几何 数 增长 ,数据 量 也 呈现 出 大 幅度 地 快速 增加 。 


1.4 大 数据 应 用 案例 


大 数据 在 各 行业 中 有 着 大 量 的 应 用 案例 ,比如 金融 行业 中 的 信贷 分 析 、 银 行 风险 分 析 及 
公司 的 交易 分 析 等 ,医疗 行业 中 的 流行 病 学 研究 、 病 房 的 实时 监控 等 ,以 及 在 亚马逊 、 淘 宝 
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Fi] Facebook 等 互联 网 企业 中 的 应 用 等 。 下 面 给 出 一 个 典型 的 大 数据 应 用 案例 一 一 余 
额 宝 。 


余额 宝 的 问世 改变 了 天 弘 基金 由 原来 国内 排名 中 下 并 且 连 年 亏损 的 状态 ,使 得 它 位 居 
国内 基金 管理 公司 之 首 , 世 界 排名 14。 该 公司 将 天 弘 增 利 宝 货 币 基 金 从 零 开 始 发 展 到 用 户 
数量 超过 1 亿 元 、 资 金 规模 达到 5742 亿 元 ,超出 了 预计 的 10 倍 ,成 为 世界 第 四 大 货币 基金 。 

余额 宝 产生 的 背景 是 天 弘 基金 欲 借助 最 大 电 商 阿里 平台 ,在 支付 宝 上 向 用 户 推销 基金 。 
阿里 负责 余额 宝 在 支付 宝 端 的 建设 ,天 弘 基金 负责 与 支付 宝 对 接 的 直销 和 清算 系统 的 建设 。 
面 对 大 规模 的 数据 量 ,余额 宝 之 前 的 系统 已 经 不 能 满足 需求 ,需要 重建 。 余 额 宝 的 系统 建设 
分 为 两 期 ,然而 随 着 数据 量 和 交易 量 暴 增 , 使 得 第 一 期 系统 仍 无 法 负载 日 益 增 长 的 海量 数 
据 。 于 是 进行 了 第 二 期 系统 的 建设 ,阿里 金融 云 提供 了 云 计算 服务 ,使 得 该 系统 的 性 能 得 到 
了 相当 大 的 提高 ,在 很 大 程度 上 缩短 了 清算 时 间 。 在 2013 年 11 月 11 日 的 “ 双 11” 活 动 中 ， 
余额 宝 完成 了 1679 万 笔 赎 回 ,1288 万 笔 申 购 的 清算 工作 ,成 功 为 639 万 用 户 正 确 分 配 收 
益 , 当 天 处 理 了 61.25 亿 元 的 消费 赎 回 ,119. 97 亿 元 的 转 入 申购 ,而 系统 只 用 了 46 分 钟 就 
将 全 部 清算 工作 完成 。 

实际 上 ,二 期 系统 现 已 不 是 简单 的 直销 和 清算 系统 , 它 每 天 面 对 着 50 个 数据 库 里 海量 
用 户 和 交易 数据 的 暴涨 。 那 么 ,这 些 数据 的 使 用 、 价 值 最 大 化 吸引 了 企业 机 构 的 眼球 。 对 
此 ,天 弘 基金 选择 了 阿里 云 提供 的 ODPS( 开 放 数 据 处 理 服 务 ) 作 为 大 数据 平台 ,其 中 ODPS 
是 阿里 集团 进行 离线 数据 处 理 的 平台 ,支撑 了 阿里 金融 、 淘 宝 等 多 家 BU 的 大 数据 业务 。 天 
弘 基 金 将 目标 锁定 在 余额 宝 产 生 的 海量 数据 分 析 上 ,以 求 把 握 上 亿 用 户 的 理财 需求 及 不 同 
的 风险 接受 能 力 , 创 造 出 更 多 更 丰富 的 理财 产品 0。 


(D http://www. csdn. net/article/2014-05-26/2819939. 
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大 数据 处 理 流 程 主要 是 指 从 海量 数据 中 获取 需要 的 信息 并 进行 加 工分 析 得 到 有 用 知识 
的 输出 过 程 。 大 数据 处 理 流程 的 关键 技术 包括 大 数据 存储 和 管理 及 大 数据 检索 使 用 (包括 
数据 挖 气 和 智能 分 析 )。 围 绕 大 数据 ,一 批 新 兴 的 数据 存储 、 数 据 挖掘 ` 数 据 处 理 与 分 析 技术 
不 断 涌现 ,使 得 对 海量 数据 的 处 理 变 得 更 加 简便 快速 。 大 数据 处 理 流程 一 般 包 括 以 下 几 个 
步骤 : 数据 采集 /清洗 数据 存储 数据 挖掘 及 数据 呈现 ,如 图 2. 1 所 示 。 


数据 采集 /清洗 


sZ 
数据 存储 


数据 挖掘 


M 
数据 呈现 


图 2.1 大 数据 处 理 流程 


2.1 数据 采集 和 准备 


数据 采集 , 即 数 据 获取 ,是 指 从 传感器 或 其 他 待 测 设备 中 获取 信息 的 过 程 ?。 大 数据 采 
集 包括 对 实时 数据 、 非 实时 数据 的 采集 ,数据 类 型 包括 结构 化 、 半 结构 化 及 非 结构 化 数据 。 

大 数据 采集 的 方法 有 系统 日 志 采 集 、 数 据 库 采集 、 网 络 数据 采集 等 ,采集 的 工具 包括 传 
感 器 ,网 络 息 虫 ,移动 基站 及 使 用 者 自身 产生 的 信息 。 


(D http://baike. baidu. com/link? url = InD8lmwKE4vGOneQhSBhNÍFPNt7 MfXI-sSyubVzcdYMN2Xsf9yIWBOL 
SLZt0 YpVWInArgZunuSpSgv6G2bGrI . 
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1. 传感器 

传感器 是 一 种 检测 装置 , 它 采 集 数 据 的 过 程 为 : 首先 传感器 感受 被 测量 的 信息 ,然后 将 
其 按 一 定 规律 变换 成 为 电信 号 或 其 他 形式 的 信息 并 输出 。 传 感 器 是 大 规模 数据 的 来 源 , 比 
如 ,监控 大 型 强 子 对 撞 机 或 四 发 动机 大 型 喷气 式 客机 需要 成 千 上 万 的 传感器 通道 ,从 而 产生 
数 百 TB 的 数据 。 

2. Pq Eh 

Ta] 4 ë r X — fli HR — +E D ELI «E Zh 4 Hz H HK aJ aj 9 frs BS 9 AAS HK A S 
数据 形式 多 样 , 包 括 结 构 化 的 数据 及 图 片 音 频 、 视 频 等 非 结 构 化 数据 ,对 于 这 些 海 量 数据 ， 
传统 的 获取 方法 已 经 不 能 满足 需求 ,所 以 网 络 爬 虫 技 术 应 运 而 生 。 网 络 怜 虫 可 以 定向 地 抓 
取 用 户 所 需 的 与 某 一 特定 主题 相关 的 网 页 内 容 。 

3. PON 

日 常 通信 过 程 中 产生 的 海量 信息 。 

4. 使 用 者 自身 产生 的 信息 

随 着 微 信 、 微 博 及 邮件 等 的 普及 ,使 得 它们 拥有 庞大 的 用 户 群 。 在 人 们 使 用 这 些 软 件 的 
同时 会 产生 巨大 的 信息 ,这些 信息 也 是 海量 数据 的 重要 来 源 。 

在 进行 数据 挖掘 与 分 析 前 需要 对 数据 进行 一 定 的 处 理 , 即 数据 的 准备 。 数 据 的 准备 是 
数据 分 析 整 个 过 程 中 的 一 个 重要 阶段 ,可 以 为 后 续 的 挖掘 分 析 提 供 高 质量 的 数据 ,从 而 保证 
了 分 析 结 果 的 有 效 性 。 数 据 准 备 包 括 数据 的 导入 、 数 据 的 抽取 、 转 换 和 装载 等 。 数 据 导入 指 
的 是 将 外 部 数据 导入 到 数据 库 或 数据 仓库 中 ,关键 是 针对 数据 库 的 存储 方式 及 具体 的 应 用 
场景 定义 数据 合适 的 模式 。 数 据 的 抽取 (Extract) 是 指 将 所 需 数据 从 源 数据 中 抽取 出 来 ; 数 
据 的 转换 (Transform) 是 将 获取 的 源 数 据 按照 一 定 的 业务 需求 转换 成 所 需要 的 形式 ,包括 
对 数据 的 清洗 和 加 工 等 操作 ; 数据 的 装载 (Load) 指 的 是 将 经 过 转换 后 的 数据 装载 到 目的 数 
据 数 源 中 。ETL 过 程 包 括 对 数据 空 值 的 处 理 、 数 据 格式 的 规范 化 处 理 、 数 据 的 替换 及 正确 
性 验证 的 处 理 等 ,是 数据 挖掘 分 析 的 基础 。 


2.2 分 布 式 数 据 库 


大 数据 包括 结构 化 数据 , 半 结 构 化 数据 及 非 结 构 化 数据 ,大 数据 的 存储 与 普通 数据 存储 
的 差别 主要 表现 在 数量 级 别 和 能 和 否 存储 索引 非 结 构 化 数据 上 。 对 于 声音 、 图 片 .视频 等 非 结 
构 化 数据 ,传统 的 关系 型 数据 库 无 法 满足 存储 需求 ,因此 非 关 系 型 数据 库 变 得 尤为 重要 。 大 
数据 处 理 系统 将 通过 NoSQL 来 存储 这 些 非 结 构 化 数据 并 对 这 些 数据 进行 相关 的 检索 。 

NoSQL 数据 库 指 的 是 非 关系 型 的 数据 库 。NoSQL 数据 库 主 要 面向 Web 应 用 ,支持 分 
布 式 存储 ,能 够 满足 对 数据 库 高 并 发 读 写 需求 ,海量 数据 的 高 效 存储 需求 数据库 高 扩展 性 
和 高 可 用 性 的 需求 等 。NoSQL 数据 库 可 以 分 为 以 下 三 类 : 面向 高 性 能 读 写 的 数据 库 、 面 向 
文档 的 数据 库 及 面向 分 布 式 计算 的 数据 库 ( 比 如 Cassandra 数据 库 )。NoSQL 具有 自由 灵 
活 的 数据 模型 ,典型 的 NoSQL 数据 库 是 以 键 值 (Key-Values) 的 形式 存储 数据 的 。 

NoSQL 满足 CAP 理论 .BASE 原则 。CAP 指 的 是 对 于 以 下 三 个 特性 : 一 致 性 、 可 用 性 
及 分 区 容错 性 ,分 布 式 系统 不 能 同时 满足 ,最 多 只 能 满足 三 个 特性 中 的 两 个 。BASE 指 的 是 
Basically Available, Soft state, Eventually consistent, Basically Available( 基 本 可 用 ) 指 的 
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是 对 于 系统 短 时 间 内 的 不 可 用 是 可 容忍 的 ; Soft state( 柔 性 状态 ) 指 的 是 系统 有 异步 的 情况 
存在 , 即 在 某 个 时 期 可 以 不 同步 ; Eventually consistent( 最 终 一 致 性 ) 指 的 是 只 要 最 终 的 数 
据 满足 一 致 性 即 可 ,不 要 求 时 刻 满足 一 致 性 。NoSQL 数据 库 的 设计 一 般 针 对 具体 的 应 用 ， 
遵循 以 上 两 个 原则 ,比较 注重 数据 的 读 写 效率 、 数 据 的 容量 和 系统 的 可 扩展 性 等 。 

目前 普遍 使 用 的 关系 型 数据 库 采 用 的 是 关系 型 数据 模型 ,对 数据 存储 增加 及 一 些 需 要 
满足 的 数据 范式 ,有 时 需要 强行 修改 对 象 数据 ,以 满足 关系 型 数据 库 管理 系统 的 需要 ,而 
NoSQL 数据 库 完 全 改变 了 传统 的 观念 ,通过 改变 某 些 数据 范式 的 严格 要 求 , 获 得 灵活 的 扩 
展 性 .灵活 的 数据 模型 .能够 有 效 处 理 大 数据 ,降低 管理 和 维护 成 本 等 众多 优点 。 表 2. 1 对 
NoSQL 数据 库 与 关系 型 数据 库 的 原理 、 规 模 、 模 式 等 进行 了 一 个 对 比分 析 。 

32.1 NoSQL 和 关系 型 数据 库 的 简单 比较 
比较 标准 RDBMS NoSQL 备 注 
数据 库 原理 | 完全 支持 | 部 分 支持 RDBMS 有 数学 模型 支持 ,NoSQL 则 没有 
RDBMS 的 性 能 会 随 着 数据 规模 的 增 大 而 降低 ; NoSQL 可 

bea * adi 以 通过 添加 更 多 设备 以 支持 更 大 规模 的 数据 
数据 库 模式 | ”固定 ”| 灵活 使 用 RDBMS 需要 定义 数据 库 模式 ,NoSQL 则 不 用 
简单 查询 非常 | RDBMS 可 以 通过 索引 ,能 快速 地 响应 记录 查询 (point 
高 效 、 较 复杂 的 | query) 和 范围 查询 (range query); NoSQL 没有 索引 ,虽然 
查询 性 能 有 所 | NoSQL 可 以 使 用 MapReduce 加 速 查询 速度 ,但 仍然 不 
下 降 如 RDBMS 
RDBMS 遵守 ACID 模型 ; NoSQL 遵守 BASE (Basically 
Available .Soft State, Eventually Consistent) 模 型 


查询 效率 快 


— Bote 强 一 致 性 | 弱 一 致 性 


扩展 性 一 般 | 好 RDBMS 扩展 困难 ; NoSQL 扩展 简单 
随 着 数据 规模 的 增 大 ,RDBMS 为 了 保证 严格 的 一 致 性 ,只 
可 用 性 好 很 好 能 提供 相对 较 弱 的 可 用 性 ; NoSQL 任何 时 候 都 能 提供 较 
高 的 可 用 性 
标准 化 是 5 RDBMS 已 经 标准 化 (SQL); NoSQL 还 没有 行业 标准 
RDBMS 经 过 几 十 年 的 发 展 ,有 很 好 的 技术 支持 ; NoSQL 
VUE " * 在 技术 支持 方面 不 如 RDBMS. 


RDBMS 需要 专门 的 数据 库 管理 员 (DBA) 维 护 ; NoSQL 数 


Meet || TE 据 库 虽然 没有 DBMS 复杂 ,但 是 也 难以 维护 


随 着 互联 网 Web 2. 0 网 站 的 兴起 ,传统 的 关系 数据 库 在 应 付 Web 2. 0 网 站 ,特别 是 超 
大 规模 和 高 并 发 的 SNS 类 型 的 Web 2. 0 纯 动 态 网 站 已 经 显得 力不从心 ,暴露 了 很 多 难以 克 
服 的 问题 , 非 关 系 型 的 数据 库 则 由 于 其 本 身 的 特点 得 到 了 非常 迅速 的 发 展 。 

在 信息 技术 融合 应 用 的 新 时 代 , 大 数据 就 是 像 黄金 一 样 的 新 型 经 济 资产 、 像 石油 一 样 的 
重要 战略 资源 。 为 满足 大 数据 对 处 理 和 存储 能 力 的 无 限 需 求 ,现今 的 计算 机 体系 结构 在 数 
据 存 储 方面 要 求 具备 庞大 的 水 平 扩展 性 (Horizontal Scalability, 即 要 求 满足 能 够 连接 多 个 
软 硬 件 的 特性 ,这 样 可 以 将 多 个 服务 器 从 逻辑 上 看 成 一 个 实体 ) ,而 NoSQL 致力 于 改变 这 
一 现状 。 目 前 Google 的 BigTable 和 Amazon 的 Dynamo 使 用 的 就 是 NoSQL 数据 库 。 
NoSQL 数据 库 根据 数据 的 存储 模型 和 特点 分 为 很 多 种 类 ,如 列 存储 、 文 档 存储 、Key-Value 
存储 、 图 存储 、 对 象 存储 、xml 存储 等 数据 库 。 表 2. 2 给 出 了 几 种 典型 的 NoSQL 数据 库 及 


第 2 章 ”大 数据 相关 技术 


其 性 能 优 缺 点 。 
表 2.2 典型 的 NoSQL 数据 库 分 类 

NoSQL 数 a 

据 库 类 型 代表 性 产品 性 能 | 扩展 性 | 灵活 性 | 复杂 性 优点 缺点 
键 / 值 数据 库 |Redis Riak 高 高 高 无 | 查询 效率 高 nes 

DESI 

列 式 数据 库 |HBase Cassandra 高 高 一 般 低 | 查询 效率 高 | 功能 较 少 
文档 数据 库 |CouchDB MongoDB| 高 可 变 高 低 ny da 查询 效率 较 低 
图 形 数据 库 |Neo4J OrientDB 可 变 | 可 变 | 高 高 oi. . 


在 过 去 的 10 年 里 ,正如 交易 率 发 生 了 翻天 覆 地 的 增长 一 样 ,需要 存储 的 数据 量 也 发 生 
了 急剧 的 膨胀 ,这 种 现象 被 称 为 "数据 的 工业 革命 "。 为 了 满足 数据 量 增长 的 需要 ,RDBMS 
(关系 型 数据 库 管 理 系统 ) 的 容量 也 在 日 益 增加 ,但 是 对 于 一 些 企业 来 说 , 随 着 交易 率 的 增 
加 ,单一 数据 库 需 要 管理 的 数据 约束 的 数量 也 变 得 越 来 越 让 人 无 法 忍受 了 。 现 在 ,大 量 的 
“大 数据 ?可 以 通过 NoSQL 系统 来 处 理 , 它 们 能 够 处 理 的 数据 量 远 远 超出 了 最 大 型 的 
RDBMS 所 能 处 理 的 极限 ,很 好 地 弥补 了 关系 数据 在 某 些 方面 的 不 足 。 


2.3 分 布 式 数据 分 析 框 架 


对 于 海量 数据 处 理 ,一 般 可 以 分 成 离线 数据 处 理 和 流 式 数据 处 理 两 大 类 。 在 海量 数据 
的 计算 中 ,Hadoop 无 疑 是 开源 分 布 式 离线 处 理 技术 的 一 大 主力 ,而 Storm 则 提供 了 分 布 式 
流 处 理 框架 ,让 实时 大 数据 处 理 得 以 实现 。 


2.3.1 Hadoop 


Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,并 且 是 以 一 种 可 靠 、 高 
效 、 可 伸缩 的 方式 进行 处 理 的 。Hadoop 的 核心 框架 为 HDFS (Hadoop Distributed File 
System) , MapReduce 和 HBase, 最 底部 是 HDFS, HDFS 的 上 一 层 是 MapReduce 引擎 ,如 
图 2.2 所 示 。 其 中 HDFS 实现 对 分 布 式 存储 的 底层 支持 ,用 于 存储 Hadoop 集群 中 所 有 存 
储 节点 上 的 文件 ,HBase 则 为 大 量 非 结 构 化 数据 存储 和 索引 提供 了 条 件 ,MapReduce 则 实 
现 对 分 布 式 并 行 任务 处 理 的 程序 支持 ,能 够 让 用 户 编写 的 Hadoop 并 行 应 用 程序 运行 更 加 
简化 。 

Hadoop 作为 开源 的 云 计算 平台 已 经 在 互联 网 领域 得 到 了 广泛 的 应 用 ,互联 网 公司 往 
往 需 要 存储 海量 的 数据 并 对 其 进行 处 理 , 而 这 正 是 Hadoop 的 强项 。 如 Facebook 使 用 
Hadoop 存储 内 部 的 日 志 拷 贝 以 及 数据 挖掘 和 日 志 统计 ; Yahoo 利用 Hadoop 支持 广告 系 
统 并 处 理 网 页 搜索 ; Twitter 则 使 用 Hadoop 存储 征 博 数据 .日 志文 件 和 其 他 中 间 数 据 等 。 
在 国内 ,Hadoop 同样 也 得 到 了 许多 公司 的 青睐 ,如 百度 主要 将 Hadoop 应 用 于 日 志 分 析 和 
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HDFS(Hadoop Distributed File System) 


图 2.2 Hadoop 生态 系统 图 


网 页 数据 库 的 数据 挖掘 ; 阿里 巴巴 则 将 Hadoop 用 于 商业 数据 的 排序 和 搜索 引擎 的 优化 
等 。 随 着 互联 网 的 发 展 ,新 的 业务 模式 还 将 不 断 涌现 ,Hadoop 的 应 用 也 会 从 互联 网 领域 向 
电信 ,电子 商务 ,银行 ,生物 制药 等 领域 拓展 。 

众所周知 ,现代 社会 的 信息 量 增长 速度 极 快 ,这 些 信息 里 又 积累 着 大 量 的 数据 ,其 中 包 
括 个 人 数据 和 工业 数据 。 预 计 到 2020 年 ,每 年 产生 的 数字 信息 将 会 有 超过 1/3 的 内 容 驻 留 
在 云 平 台中 或 借助 云 平台 来 处 理 。 我 们 需要 对 这 些 数据 进行 分 析 和 处 理 ,以 获取 更 多 有 价 
值 的 信息 。 那 么 如 何 高 效 地 存储 和 管理 这 些 数据 ? 如何 分 析 这 些 数 据 呢 ? 这 时 可 以 选用 
Hadoop 系统 , 它 在 处 理 这 类 问题 时 采用 了 分 布 式 存 储 方式 ,提高 了 读 写 速度 ,并 扩大 了 存 
储 容 量 。 采 用 MapReduce 来 整合 分 布 式 文件 系统 上 的 数据 ,可 保证 分 析 和 处 理 数据 的 高 
效 。 与 此 同时 ,Hadoop 还 采用 存储 元 余数 据 的 方式 保证 了 数据 的 安全 性 。 


2.3.2 HDFS 


HDFS(Hadoop Distributed File System) 是 Hadoop 的 一 个 分 布 式 文件 系统 ,由 于 其 具 
有 高 容错 性 (Fault-Tolerant) 的 特点 ,因而 可 以 设计 部 署 在 低廉 (Low-Cost) 的 硬件 上 ,并 能 
以 高 吞吐 率 (High Throughput) 来 访问 应 用 程序 的 数据 ,适合 那些 有 着 超大 数据 集 的 访问 。 

一 个 HDFS 文件 系统 由 一 个 主 控 节 点 (NameNode) 和 一 组 从 节点 (DataNode) 构 成 , 主 
控 节 点 为 一 个 管理 整个 文件 系统 的 主 服务 器 ,包括 文件 系统 命名 空间 及 元 数据 的 管理 ,对 文 
件 访问 请 求 的 处 理 。 从 节点 是 对 数据 块 进行 实际 的 存储 和 管理 。 主 控 节 点 向 从 节点 分 配 数 
据 块 ,建立 数据 块 和 从 节点 的 对 应 关系 ; 从 节点 处 理 系 统 用 户 对 数据 的 读 写 请 求 以 及 主 控 
节点 对 数据 块 的 创建 、 删 除 副 本 的 指令 。 一 个 集群 设置 唯一 的 NameNode, 这 样 在 很 大 程度 
上 简化 了 系统 的 架构 。 

HDFS 以 分 布 式 的 存储 方式 存储 大 数据 ,可 扩展 性 较 好 ,容错 能 力 、 数 据 吞 吐 能 力 及 并 
发 访问 能 力 都 相当 强大 ,为 上 层 大 数据 的 处 理应 用 程序 提供 了 强大 的 数据 存储 和 访问 功能 
支撑 。 而 且 HDFS 放宽 了 可 移植 操作 系统 接口 (Portable Operating System Interface, 
POSIX) 的 要 求 ,实现 了 以 流 的 形式 访问 文件 系统 中 的 数据 。HDFS 原本 是 开源 的 Apache 
项 目 Nutch 的 基础 结构 ,最 后 它 成 为 了 Hadoop 的 基础 架构 之 一 。 
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2.3.3 HBase 


HBase 位 于 结构 化 存储 层 , 是 一 个 分 布 式 的 NoSQL 数据 库 , 它 建立 在 HDFS 之 上 ,为 
大 规模 的 结构 化 、 半 结构 化 及 非 结构 化 的 数据 提供 了 实时 读 写 及 随机 访问 功能 。 对 于 海量 
数据 的 存储 ,HBase 对 硬件 的 要 求 不 高 ,普通 的 服务 器 集群 就 能 做 到 。HBase 对 数据 进行 
查询 增 改 等 操作 的 性 能 比较 高 ,一 般 情 况 下 都 与 数据 量 的 大 小 无 关 , 即 使 表 中 的 数据 记录 非 
常 大 ,对 某 条 记录 的 查询 也 可 以 快速 地 完成 。HBase 对 数据 模型 的 定义 非常 灵活 , 它 采 用 
的 是 列 式 存储 而 不 是 基于 行 的 模式 , 表 为 一 个 分 布 式 多 维 表 , 包 括 行 关 键 字 (Row Key) 5] 
族 (Column Family) .#IJ # (Column Name) 和 时 间 戳 (Timestamp)。 字 段 数 据 对 应 的 键 值 
对 为 : 

{row key. column family. column name. timestamp) —value 

根据 row key、column key 和 time stamp 对 数据 进行 查询 ,时 间 戳 使 得 同一 份 数据 有 多 
个 版 本 。 一 般 情况 下 ,查询 数据 的 条 件 是 基于 列 名 的 。 与 传统 行 存储 方式 的 数据 库 不 同 的 
是 ,HBase 不 需要 扫描 所 有 行 的 数据 ,这 在 很 大 程度 上 提高 了 数据 访问 性 能 。 此 外 , HBase 
还 具有 对 数据 读 写 严格 一 致 性 ( 即 保证 读 到 的 是 最 新 的 数据 )、 高 效 的 随机 读 写 能 力 , 较 好 的 
可 扩展 性 等 优点 。 


2.3.4 Hive 


Hive 是 一 个 基于 Hadoop 的 数据 仓库 , 它 提供 了 一 种 类 似 SQL 查询 语言 的 编程 接口 ， 
可 以 运用 HiveQL 语言 对 数据 进行 查询 分 析 等 操作 ,避免 了 复杂 的 MapReduce 程序 的 设计 
编写 ,在 很 大 程度 上 降低 了 对 数据 进行 查询 分 析 时 应 用 程序 的 开发 。Hive 是 基于 HDFS、 
HBase 和 MapReduce 工作 的 , Hadoop 大 数据 平台 从 Hive 接收 数据 处 理 指令 ,通过 
HDFS、HBase, 并 配合 MapReduce 完成 操作 。Hive 不 仅 能 够 使 用 分 区 (Partition ) J fifi 
(Bucket) 对 数据 进行 存储 以 提高 数据 查询 的 性 能 ,而 且 在 写 人 数据 时 不 检查 数据 的 类 型 ,从 
而 达到 高 速 加 载 数据 的 目的 ,这 种 模式 能 够 满足 大 规模 数据 的 需求 。Hive 能 结合 ETL T. 
有 具 导入 导出 数据 ,在 传统 数据 库 和 Hadoop 平台 之 间 充 当 桥 梁 的 作用 ,使 两 者 之 间 的 联系 更 
为 紧密 。 


2.3.5 MapReduce 


MapReduce 是 由 Google 提出 的 ,是 一 种 面向 大 数据 并 行 处 理 的 计算 模型 ,对 计算 数据 
和 计算 任务 能 够 自动 完成 并 行 化 处 理 。MapReduce 提供 了 简单 方便 的 并 行程 序 设 计 方 法 ， 
用 函数 Map 和 函数 Reduce 编程 实现 并 行 计算 ,编程 人 员 在 不 了 解 分 布 式 并 行 编程 的 情况 
下 也 能 方便 地 将 自己 的 程序 运行 在 分 布 式 系统 上 ,使 得 大 数据 的 编程 和 计算 变 得 更 加 简便 。 
MapReduce 采用 的 是 “分 而 治之 ”的 思想 ,将 大 规模 数据 处 理 任务 划分 成 若干 个 子 任务 进行 
处 理 , 再 将 结果 进行 合并 得 到 计算 结果 ,从 而 完成 大 数据 的 并 行 化 处 理 。MapReduce 定义 
T Map 和 Reduce 两 个 编程 接口 : 


map: (k1;v1)—[ (k2;v2)] 


大 数据 分 析 : R 基 础 及 应 用 


reduce: (k2;[v2]) 一 [(k3;v3)] 


其 中 参数 都 是 键 值 对 形式 的 数据 。Map 和 Reduce 处 理 的 过 程 如 下 : 数据 以 键 值 对 的 
形式 (k1;v1) 传 人 map 函数 ,经 map 函数 处 理 后 生成 中 间 键 值 对 [(k2;v2)], 然 后 对 这 些 中 
间 键 值 对 进行 处 理 , 得 到 键 值 对 (k2;[v2]) ,其 中 [v2] 代 表 相 同 键 k2 的 不 同 值 v2 的 集合 ,将 
其 传人 reduce 函数 ,经 reduce 函数 处 理 后 最 终 以 键 值 对 [(k3;v3)] 的 形式 输出 。Map 和 
Reduce 两 个 阶段 都 是 并 行 处 理 的 。 


2.3.6 Strom 


Twitter Storm 是 一 个 免费 .开源 的 分 布 式 实时 计算 系统 , 它 可 以 简单 ,高效 .可靠 地 处 
理 大 量 的 流 数据 。 在 Twitter 中 进行 实时 计算 的 系统 就 是 Storm, 它 在 数据 流 上 进行 持续 
计算 ,并 且 对 这 种 流 式 数据 处 理 提供 了 有 力 保 障 。 

Storm 运行 于 集群 之 上 ,与 Hadoop 集群 类 似 。 但 在 Hadoop 上 运行 的 是 MapReduce 
Jobs, 而 在 Storm 上 运行 的 是 Topologies。 两 者 大 不 相同 ,一 个 关键 区 别 是 MapReduce 的 
Job 最 终 会 结束 ,而 Topology 永远 处 理 消息 (或 直到 kill 它 )。Storm 将 数据 以 Stream 的 方 
式 , 并 按照 Topology 的 顺序 依次 处 理 并 最 终生 成 结果 。 

Storm 对 一 些 概念 进行 了 抽象 化 ,其 主要 术语 和 概念 包括 Streams, Spouts, Bolts, 
Topology 和 Stream Groupings. Topology 生态 系统 图 如 图 2. 3 所 示 ,数据 从 源头 Spout 中 
进入 ,依照 拓扑 顺序 ,使 用 相应 的 Bolt 依次 处 理 , 得 到 最 终 数据 。 这 种 由 各 个 用 户 自 定义 的 
处 理 器 (Bolt) 组 合 而 成 的 拓扑 结构 能 够 适应 大 多 数 的 业务 需求 。 因 此 ,只 要 业务 能 够 组 合 
成 相应 的 拓扑 逻辑 ,就 能 够 借助 Storm 框架 ,也 就 无 需 考虑 实时 计算 的 低 延 迟 .高 性 能 、 分 
布 式 .可 扩展 、 容 错 等 问题 了 。 


Topology 


Stream 
Grouping 


图 2.3 Topology 生态 系统 图 


iit Stream 是 一 个 不 间断 的 无 界 的 连续 Tuple( 元 组 ,是 元 素 有 序列 表 ) ,这 些 无 界 的 元 
组 会 以 分 布 式 的 方式 并 行 地 创建 和 处 理 。 每 个 流 Stream 都 有 一 个 源 Spouts. Spouts 会 从 
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外 部 读 取 流 数据 并 发 出 Tuple。 流 的 中 间 状 态 抽象 为 Bolts. Bolts 可 以 处 理 tuples, 同 时 它 
也 可 以 发 送 新 的 流 给 其 他 Bolts 使 用 。Bolts 作为 消息 处 理 者 ,处 理 输入 的 数据 流 并 产生 输 
出 的 新 数据 流 。Bolts 中 可 执行 过 滤 、 聚 合 .查询 数据 库 等 操作 。 

为 了 提高 效率 ,在 Spout 源 可 以 接 上 多 个 Bolts 处 理 器 。Storm 将 这 样 的 无 向 环 图 抽象 
为 Topology,Topology 是 Storm 中 最 高 层次 的 抽象 概念 。 当 Spout 或 者 Bolt 发 送 元 组 到 
流 时 , 它 就 发 送 元 组 到 每 个 订阅 了 该 流 的 Bolt 上 进行 处 理 。 

对 比 Hadoop 的 批 处 理 , Storm 是 一 个 实时 的 、 分 布 式 及 具备 高 容错 的 计算 系统 。 同 
Hadoop 一 样 ,Storm 也 可 以 处 理 大 批量 的 数据 。 然 而 Storm 在 保证 高 可 靠 性 的 前 提 下 还 
可 以 让 处 理 进行 的 更 加 实时 ,通常 被 比 作 “实时 的 Hadoop”。 也 就 是 说 ,所 有 的 信息 都 会 被 
处 理 。Storm 同样 还 具备 容错 和 分 布 计算 这 些 特性 ,这 就 让 Storm 可 以 扩展 到 不 同 的 机 器 
上 进行 大 批量 的 数据 处 理 。 

Storm 流 处 理 技术 作为 大 数据 处 理 技术 之 一 ,其 应 用 场景 也 有 很 多 ,总 的 来 说 ,一 方面 
可 应 用 于 处 理 金融 服务 如 股票 交易 .银行 交易 等 产生 的 大 量 实时 数据 ; 另 一 方面 主要 应 用 
于 各 种 实时 Web 服务 中 ,如 搜索 引擎 ,购物 网 站 的 实时 广告 推荐 ,SNS 社交 类 网 站 的 实时 
个 性 化 内 容 推荐 ,大 型 网 站 、 网 店 的 实时 用 户 访问 情况 分 析 等 。 实 时 的 数据 计算 和 分 析 对 于 
大 型 网 站 来 说 具有 重要 的 实际 意义 ,不 仅 可 用 于 网 站 的 实时 业务 监控 ,也 可 以 实现 用 户 实 时 
个 性 化 内 容 推荐 等 。 

随 着 企业 数据 量 的 迅速 增长 ,存储 和 处 理 大 规模 数据 已 成 为 企业 的 迫切 需求 。 在 大 数 
据 的 计算 中 ,开源 分 布 式 离线 处 理 技术 hadoop 与 提供 了 分 布 式 流 处 理 框 架 的 storm 在 各 大 
领域 都 得 到 了 广泛 的 应 用 。 


2.4 大 数据 分 析 与 R 


随 着 大 数据 时 代 的 到 来 ,大 量 来 自 互联 网 金融 `. 生 物 等 领域 的 数据 需要 分 析 处 理 。 
Hadoop 的 分 布 式 数据 处 理 模式 让 原来 不 可 能 的 TB, PB 级 数据 量 计算 成 为 了 可 能 ,而 R 语 
言 的 强大 之 处 在 于 其 统计 分 析 功 能 ,但 是 对 于 大 数据 的 处 理 ,R 受到 内 存 和 性 能 方面 的 限 
制 , 只 能 通过 抽样 进行 计算 分 析 。 为 了 克服 这 一 不 足 , 使 得 R 能 够 有 效 地 处 理 大 数据 ， 
RHadoop 应 运 而 生 。RHadoop 是 由 Revolution Analytics 公司 发 起 的 一 个 开源 项 目 , 它 使 
得 Hadoop 集群 上 存储 在 Hadoop 分 布 式 文件 系统 中 的 数据 可 以 实现 本 地 R 分 析 , 并 对 这 
些 计算 结果 进行 整合 ,这 一 举措 使 得 大 规模 数据 得 到 了 有 效 的 管理 ,同时 充分 利用 了 R 强 
大 的 数据 分 析 功 能 。 由 此 可 以 看 出 ,这 两 种 技术 的 结合 既是 产业 界 的 必然 导向 ,也 是 产业 界 
和 学 术 界 的 交集 ,更 为 交叉 学 科 的 人 才 提供 了 无 限 广 阔 的 想象 空间 。 


2.4.1 RHadoop 


RHadoop 包含 三 个 R 包 : rhdfs, rmr 及 rhbase. 它们 分 别 对 应 Hadoop 架构 中 的 
HDFS, MapReduce fil HBase 三 个 部 分 。RHadoop 的 三 个 包 为 R 进行 大 数据 的 分 析 操 作 
提供 了 以 下 功能 : 
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rhdfs 包 的 主要 功能 是 调用 HDFS API 对 存储 在 HDFS 上 的 数据 进行 操作 ,使 得 R 对 
分 布 式 数据 文件 的 操作 变 得 更 加 简便 。 
rmr 包 为 R 提供 了 Hadoop MapReduce 功能 ,在 R 上 需要 将 程序 分 成 两 个 阶段 (Map 
阶段 和 Reduce 阶段 ), 然 后 调用 rmr 实现 任务 的 提交 ,进而 调用 Hadoop streaming 的 
MapReduce API, 从 而 在 集群 上 分 布 式 地 实现 R MapReduce 程序 ,完成 R 对 大 数据 的 分 析 
操作 。 
rhbase 包 为 R 提供 了 HBase 数据 库 管 理 功能 ,在 R 环境 中 实现 对 HBase 中 数据 的 读 
写 查 询 等 操作 。 
1. Rhdfs 包 的 基本 操作 函数 
* hdfs. init: 初始 化 rhdfs, 该 操作 的 语法 为 hdfs. initO 。 
* hdfs. defaults: 获得 rhdfs 的 默认 设置 ,该 操作 的 语法 为 hdfs. defaults () 。 
。 hdfs. put: 从 本 地 文件 系统 复制 文件 到 HDFS 系统 中 。 例 如 将 存放 于 本 地 文件 系统 
中 的 sample. txt 文件 复制 到 HDFS 中 ,操作 如 下 : 
hdfs. put( '/local/hadoop/sample. txt','/RHadoop/first') 
。 hdfs. copy: 从 HDFS 目录 复制 文件 到 本 地 文件 系统 ,例如 : 
hdfs. copy('/RHadoop/first','/RHadoop/second') 
* hdfs. move: 移动 文件 ,将 文件 从 HDFS 文件 夹 移动 到 另 一 个 HDFS 文件 夹 中 ， 
例如 : 
* hdfs. move('/local/hadoop/sample. txt', '/RHadoop/first') 
* hdfs. rename: 重 命名 文件 ,在 R 环境 中 重 命名 存储 在 HDFS 中 的 文件 ,例如 : 
hdfs. rename('/RHadoop/first/ samplel. txt',' /RHadoop/first/ sample2. txt') 
* hdfs. delete/ hdfs. rm/hdfs. rmr: 在 R 中 将 HDFS 中 的 文件 或 文件 夹 删 除 ,例如 : 
hdfs. delete( '/RHadoop') 
* hdfs. chmod: 修改 文件 权限 ,例如 : 
hdfs. chmod('/RHadoop', permissions="777") 
* hdfs. file; 初始 化 文件 ,使 得 在 HDFS 中 的 文件 能 够 进行 读 写 操作 ,例如 : 
F=hdfs. file('/Rhadoop/first/sample. txt'. mode— "r" ,buffersize 一 5242880,overwrite 
=TRUE) 
。 hdfs. write: 写 人 文件 ,将 R 对 象 通过 streaming 写 入 存储 在 HDFS 中 的 文件 ,语法 
为 hdfs. write(object,con,hsync)。 
其 中 ,object 为 写 人 磁盘 的 R 对 象 ,con 为 已 初始 化 能 够 进行 读 写 操作 的 文件 。 如 果 参 
数 hsync 设置 为 TRUE, 那 么 写 人 对 象 后 该 文件 将 被 同步 。 
。 hdfs. close: 关闭 读 写 流 ,关闭 后 不 能 对 文件 进行 读 写 。 例 如 ,关闭 初始 化 的 HDFS 
文件 F,hdfs. close(F) 。 
* hdfs. read: 从 HDFS 中 的 文件 读 取 文件 内 容 ,语法 为 : hdfs. read( con. n.star 。 
其 中 ,con 为 已 初始 化 能 够 进行 读 写 操作 的 文件 ,n 为 所 读 取 的 字 节 数 ,start 为 开始 读 
取 的 位 置 ,默认 为 当前 位 置 。 
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。 hdfs. dircreate/hdfs. mkdir; 创建 文件 夹 , 用 于 在 HDFS 中 创建 文件 夹 , 例 如 : 
hdfs. dircreate("/Rhadoop/1/") 

。 hdfs. Is: 将 HDFS 中 的 文件 夹 内 容 列 出 来 ,例如 : 

hdfs. ls("/tmp") 

。 hdfs. file. info: 获取 HDFS 文件 的 元 信息 ,例如 : 

hdfs. file. info("/tmp") 
2. rmr 包 的 基本 操作 函数 

* to. dfs: 向 HDFS 文件 系统 中 写 和 人 RMR. 

* from. dfs: M HDFS 文件 系统 中 读 取 R WE. 

* mapreduce: 定义 ,执行 MapReduce 任务 ,函数 语法 如 下 : 


mapreduce(input, output, map. reduce, combine, input. format, output. format, 


verbose) 


* keyval: 创建 ,提取 键 值 对 ,函数 语法 为 keyval(key, val), 
2.4.2 RHIPE 


RHIPE(R and Hadoop Integrated Programming Environment, Hadoop 和 R 集成 编程 
环境 ) 是 一 种 R 和 Hadoop 的 结合 技术 ,使 用 Divide 和 Recombine 技术 实现 大 数据 分 析 。 
RHIPE 在 R 和 Hadoop 之 间 充 当 桥梁 的 作用 , 它 使 得 R 分 析 大 规模 数据 得 以 实现 ,可 以 在 
R 上 操作 MapReduce 程序 。 

2.4.3 RHive 


RHive 是 一 款 通过 R 语言 直接 访问 Hive 的 工具 包 , 是 由 NexR 公司 研发 的 。 通 过 使 
用 RHive 可 以 在 R 环境 中 写 HQLCHiveQDO ,将 有 的 对 象 传人 到 hive 中 ,在 hive 中 进行 计 
算 。 在 RHive 中 小 数据 集 在 R 中 执行 ,大 数据 集 在 hive 中 运行 。 

RHive 的 一 些 基 本 操作 如 下 : 

e rhive. init; 初始 化 Rhive, 语 法 为 rhive. init() 。 

* rhive. connect: 连接 hive 服务 器 ,例如 : 

rhive. connect("192.168.85.105") 

。 rhive. list. tables: 列 出 所 有 的 表 , 语 法 为 rhive. list. tables()。 

。 rhive. desc. table: 查看 某 个 表 的 结构 ,例如 : 


rhive. desc. table( 'hivetable') 
° rhive. query: 执行 HQL 查询 操作 ,例如 : 
rhive. query("select * from hivetable") 


* rhive. close; 断 开 与 hive 服务 器 的 连接 ,语法 为 rhive. closeO 。 
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2.4.4 RHBase 


RHBase 依赖 于 Hadoop. HBase 和 Thrift, 通 过 RHBase 可 以 实现 从 H Base 将 数据 加 
RA R 中 ,包括 新 建 或 删除 表 、 显 示 表 结构 . 读 取 或 插入 数据 等 操作 。 

RHBase 的 一 些 基本 操作 : 

* hb, list. tables; 列 出 所 有 HBase 表 . 语 法 为 hb. list. tablesO 。 

* hb. new. table: 创建 HBase 表 ,例如 : 


hb. new. table("hbasetable") 

* hb. describe. table: 显示 表 结构 ,例如 : 

hb. describe. table("hbasetable") 

* hb. get: 读 取 表 中 的 数据 ,例如 读 取 hbasetable 表 中 行 关键 字 为 1001 的 字段 ， 
hb. get("hbasetable","1001") 

。 hb. insert; 向 表 中 插入 数据 ,语法 为 : 
hb. insert(tablename, changes) 


其 中 ,tablename 为 需要 插入 数据 的 HBase 表 ,changes 为 插入 的 字段 内 容 , 为 列表 的 


形式 。 
* hb. delete. table: 删除 HBase X ,例如 删除 表 hbasetable: 

hb. delete. table("hbasetable") 

* hb. delete: 删除 表 中 的 字段 ,例如 删除 表 hbasetable rP £7 KH FAH 1001 的 字段 : 


hb. delete("hbasetable","1001") 


2.5 国泰 安 的 大 数据 


2.5.1 大 数据 实验 室 建 设 

国泰 安 大 数据 实验 室 可 根据 高 校 的 实际 需求 和 专业 及 人 才 定 位 情况 ,根据 学 科研 究 领 
域 及 方向 ,师资 实验 室 设置 .运行 等 基本 情况 ,针对 不 同 院 校 的 特色 .方向 课程 等 工作 的 开展 
情况 ,设计 大 数据 研究 中 心 、 实 训 基 地 来 满足 学 校 的 具体 需求 。 

从 顶层 思路 的 大 数据 价值 链 出 发 ,借鉴 大 数据 通用 架构 图 ,结合 市 场 常用 软件 及 国泰 安 
自 有 的 软件 形成 了 国泰 安 大 数 据 实验 室 解决 方案 。 为 大 数据 实验 室 的 建设 提供 数据 源 、 大 
数据 采集 与 ETL、 大 数据 存储 、 大 数据 分 析 与 挖掘 、 大 数据 展示 与 可 视 化 5 大 模块 全 面 系统 
的 服务 。 图 2.4 是 国泰 安 大 数据 实验 室 解决 方案 。 

表 2. 3 为 国泰 安 大 数据 实验 室 的 软件 配置 列表 ,其 中 包含 了 从 数据 源 .大 数据 采集 、 
ETL、 存 储 、 分 析 控 掘 到 可 视 化 展示 整个 系统 的 软件 配置 。 
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大 数据 展示 
与 可 视 化 幕 展 示 系统 


国泰 安 大 屏 


SAP Lumira 


m | mow | | === | 


大 数据 


分 析 挖 揭 
Hive 


hadoop 
Map 
Reduce 


经 济 全 融 
模型 实 训 
平台 EFM 


| "nae NoSQL 
e (s) MongoDB )( Cassandra I CouchDB í Redis I Neotj IL E | 3 
a C CJ C Cem Jom Joe JC J 
“le J E 
传统 数据 库 数 据 (Oracle, SQL Server, ERP, .) iid 
图 2.4 国泰 安 大 数据 实验 室 解决 方案 
表 2.3 大 数据 实验 室 软件 配置 列表 
分 类 软件 名 称 fi o ^ 
CSMAR 数据 库 是 专门 针对 中 国 金融 ,经 济 领域 的 研究 型 精准 数据 库 ， 
CSMAR 数据 库 | 包括 股票 市 场 、 公 司 研究 、 基 金 市 场 .债券 市 场 , 往 生 市 场 、 经 济 研 究 、 行 
业 研 究 \ 海 外 研究 和 专题 研究 等 11 个 大 系列 ,75 个 数据 库 
数据 源 量化 与 情 数 | 量化 与 情 数据 库 是 为 了 支持 新 闻 传媒 ,品牌 管理 和 量化 投资 等 研究 ,通过 
据 库 接收 新 闻 站 点 \ 论 坛 ,博客 和 微 博 等 海量 与 情 数 据 而 建设 的 数据 存储 系统 
高 频数 据 库 是 包含 股票 .基金 .债券 .权证 、 股 指 期 货 、 商 品 期 货 , 港 交 所 
高 频数 据 库 证 券 在 内 的 各 类 高 频数 据 ,以 及 基于 高 频数 据 传输 、 更 新 、 应 用 软件 在 
内 的 一 套 整体 的 系统 解决 方案 
国泰 安 大 数据 | 国泰 安 大 数 据 采 集 平台 实现 对 各 类 不 同 的 数据 源 的 手工 、 半 手工 、 结 构 
采集 平台 化 , 非 结构 化 和 半 结 构 化 数据 进行 统一 采集 管理 
国泰 安 八 爪 鱼 国泰 安 八 爪 鱼 数据 采集 系统 以 完全 自主 研发 的 分 布 式 云 计算 平台 为 核 
心 ,可 以 在 很 短 的 时 间 内 ,轻松 地 从 各 种 不 同 的 网 站 或 者 网 页 获取 大 量 
采集 器 
大 数据 采 的 规范 化 数据 
集 与 ETL 火车 采集 器 火车 采集 器 是 一 款 专 业 的 网 络 数据 采集 /信息 挖掘 处 理 软 件 
Sqoop 是 一 款 开 源 的 工具 ,主要 用 于 在 Hadoop(Hive) 与 传统 的 数据 库 
Sqoop (mysql、postgresql,…) 间 进行 数据 的 传递 。Sqoop 是 用 来 将 Hadoop 
和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 
Kaie Kettle 是 一 款 国 外 开源 的 ETL 工具 , 纯 Java 编写 ,可 以 在 Windows, 
Linux 和 UNIX 上 运行 ,数据 抽取 高 效 稳定 
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R 基 础 及 应 用 


BR 


软件 名 称 


简 人 


大 数据 存储 


HBase 


HBase 是 一 个 分 布 式 的 、 面 向 列 、 适 合 于 非 结 构 化 数据 存储 的 开源 数据 
库 , 是 一 个 数据 库 


HDFS 


HDFS 是 一 个 分 布 式 文件 系统 ,是 Hadoop 体系 中 数据 存储 管理 的 基础 


MongoDB 


MongoDB 是 一 个 高 性 能 、 开 源 、 无 模式 的 文档 型 数据 库 , 是 当前 
NoSQL 数据 库 中 比较 热门 的 一 种 


Cassandra 


Cassandra 是 一 套 开 源 分 布 式 NoSQL 数据 库 系统 ,是 一 种 流行 的 分 布 
式 结构 化 数据 存储 方案 


CouchDB 


CouchDB 是 一 个 开源 的 面向 文档 的 数据 库 管 理 系统 ,可 以 通过 
RESTful JavaScript Object Notation (JSON) API 访问 


Redis 


Redis 是 一 个 开源 的 使 用 ANSIC 语言 编写 .支持 网 络 .可 基于 内 存 也 可 
持久 化 的 日 志 型 .Key-Value 数据 库 


Neo4j 


Neo4j 是 一 个 嵌入 式 ,基于 磁盘 的 支持 完整 事务 的 Java 持久 化 引擎 ， 
它 在 图 (网 络 ) 中 而 不 是 表 中 存储 数据 


SAP HANA 


SAP HANA 是 一 款 完 备 的 实时 分 析 解 决 方案 


大 数据 分 
析 挖 掘 


MapReduce 


MapReduce 是 一 种 计算 和 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 
并 行 运算 


Hive 


Hive 是 由 Facebook 开发 的 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ,是 
用 来 管理 结构 化 数据 的 中 间 件 


Pig 


Pig 是 一 个 基于 Hadoop 的 大 规模 数据 分 析 平 台 , 包 含 Pig Interface 和 
Pig Latin 两 个 部 分 ,其 中 Pig Latin 语言 的 编译 器 会 把 类 SQL 的 数据 
分 析 请 求 转换 为 一 系列 经 过 优化 处 理 的 MapReduce 运算 


R 


R, 一 种 自由 软件 编程 语言 与 操作 环境 ,具有 统计 分 析 功 能 


RHadoop 


RHadoop 是 一 款 Hadoop 和 R 语言 结合 的 产品 , 由 Revolution 
Analytics 公司 开发 ,可 对 海量 数据 进行 分 析 


RRE 


Revolution R Enterprise 拥有 各 种 各 样 的 数据 可 视 化 .统计 分 析 、 预 测 
性 建 模 及 机 器 学 习 的 能 力 , 能 得 到 最 具 成 本 效率 的 分 析 , 并 能 快速 地 分 
析 大 数据 ,完全 与 R 语言 兼容 


经 济 金融 模型 实 
训 平 台 (EFMD 


经 济 金融 模型 实 训 平台 是 一 个 集 经 济 金融 数理 统计 模型 教学 、 建 模 、 实 
训 、 交 流 、 应 用 为 一 体 的 开放 式 教 学 实 训 平台 


Matlab 


Matlab 是 matrix&laboratory 两 个 词 的 组 合 , 意 为 矩阵 工厂 (矩阵 实验 
Æ). Matlab 是 由 美国 mathworks 公司 发 布 的 主要 面 对 科 学 计算 、 可 
视 化 及 交互 式 程序 设计 的 高 科技 计算 环境 


Spark 


Spark 是 UC Berkeley AMP lab 所 开源 的 类 Hadoop MapReduce 的 通 
用 的 并 行 计算 框架 ,基于 map reduce 算法 实现 分 布 式 计算 


Spark 


Streaming 


Spark Streaming 是 建立 在 Spark 上 的 实时 计算 框架 ,通过 它 提供 的 
API 和 基于 内 存 的 高 速 执行 引擎 ,用 户 可 以 结合 流 式 、 批 处 理 和 交互 式 
查询 应 用 


Spark MLlib 


MLlib 是 Spark 对 常用 的 机 器 学 习 算 法 的 实现 库 ,同时 包括 相关 的 测 
试 和 数据 生成 器 


SparkSQL 


Spark SQL 是 支持 在 Spark 中 使 用 Sql、HiveSql、Scaca 中 的 关系 型 查询 
表达 式 
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续 表 

分 类 软件 名 称 简 介 

Ea 一 个 用 于 机 器 学 习 和 数据 挖掘 的 分 布 式 框架 ,区 别 于 其 他 的 开源 数据 
大 数据 分 挖掘 软件 , 它 是 基于 Hadoop 之 上 的 

析 挖 掘 Weka 即 怀 卡 托 智能 分 析 环 境 , 是 基于 Java 环境 下 开源 的 机 器 学 习 及 
数据 挖掘 软件 

国泰 安 大 数据 

可 视 化 系统 BI 可 视 化 开发 工具 ,支持 各 种 数据 源 .丰富 的 图 表 类 型 
大 数据 展示 泰安 大 屏幕 | 一 个 采用 独特 的 开发 理念 ,突破 了 传统 软件 的 各 种 瓶颈 技术 创新 的 应 
与 可 视 化 | 管理 系统 用 型 高 端 软件 系统 

Datawatch 一 款 用 于 实时 数据 处 理 、 分 析 和 数据 可 视 化 的 软件 

Tableau Tableau 是 桌面 系统 中 最 简单 的 商业 智能 工具 软件 


2.5.2 大 数据 分 析 平 台 


国泰 安 金融 大 数据 实验 室 由 金融 大 数据 采集 、 金 融 大 数据 内 容 与 存储 、 金 融 大 数据 分 析 
与 挖掘 、 金 融 大 数据 展示 与 可 视 化 、 金 融 大 数据 智慧 教学 平台 5 大 模块 组 成 。 其 中 ,大 数据 
分 析 平 台 (big data analysis, BDA) 是 一 个 面向 大 数据 分 析 的 教学 系统 。BDA 是 集 经 济 金 
Fi ,数理 统计 、 数 据 分 析 模 型 的 教学 、 建 模 、 实 训 、 交 流 、 应 用 为 一 体 ,基于 R 的 开放 式 教学 实 
训 平台 ,是 一 个 通过 提供 专业 的 大 数据 分 析 领 域 常用 的 算法 模型 ,用 统计 分 析 领 域 中 应 用 范 
MEJ H R 语言 来 实现 ,为 学 校 师 生 提供 算法 模型 的 教 与 学 的 软件 平台 。DBA 由 以 下 模块 
组 成 。 

CD 模型 演示 模块 : 对 模型 从 理论 到 实战 程序 数据 结果 、 图 形 的 全 面 展 示 。 

(2) 模型 DIY 模块 : 自主 创建 模型 的 背景 知识 及 模型 的 程序 。 

(3) 模型 管理 模块 : 实现 对 模型 的 修改 、 导 出 及 同步 功能 。 

OD 教学 管理 模型 : 实现 个 人 的 在 线 作 业 ,作业 的 发 放 和 评阅 等 功能 。 

(5) 编程 ABC 模块 : 分 享 你 我 他 的 资源 ,实现 在 线 学 习 交 流 。 

BDA 的 主要 功能 和 特点 如 下 。 

1. 全 方位 式 的 教学 

教学 内 容 模型 化 .图 形 化 .数字 化 ,包括 模型 的 理论 介绍 及 详细 讲解 步骤 ,每 个 步骤 的 扒 
导 及 演算 说 明 .参数 说 明 ,数据 ,程序 ,以 及 每 步 的 计算 结果 和 图 形 。 

2. 可 视 化 流程 化 的 建 模 

标准 化 、 模 块 化 的 建 模 流 程 和 框架 ,可 修改 诛 有 的 案例 程序 及 数据 ,也 可 自主 建 模 ; 可 
使 用 自 有 的 Excel txt, RData csv, mat 格式 数据 计算 建 模 , 也 可 使 用 API 调用 CSMAR 数 
据 库 的 数据 进行 建 模 。 对 模型 最 多 有 10 个 步骤 进行 灵活 分 解 。 

3. 可 视 化 编程 

从 数据 到 程序 ,从 中 间 变 量 到 目标 结果 ,全 流程 可 视 化 ,轻松 有 趣 地 学 习 R 编程 。 

4. 全 面 的 教学 管理 平台 

教师 可 在 线 完成 按 班 级 或 指定 的 学 生 群 体 发 放 模型 作业 ,查看 作业 模型 程序 数据 和 结 
果 , 以 及 在 线 交流 及 辅导 ,随时 随地 实现 作业 的 收发 .评阅 及 辅导 。 
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5. 引导 式 的 学 习 平台 

模型 难 易 分 明 , 既 可 满足 基本 的 教学 需求 ,又 能 够 实现 学 生 对 软件 、 理 论 模 型 的 编程 开 
发 学 习 ,最 重要 的 是 平台 上 有 非常 贴近 市 场 的 真实 案例 开源 代码 资源 学 习 , 相 信人 能 够 使 学 者 
完成 从 基础 学 习 到 职场 准备 的 阶梯 提升 计划 。 

6. 金融 建 模 大 赛 

每 年 两 次 的 金融 建 模 大 赛 ,能 够 激发 学 生 的 创新 和 思考 问题 的 能 力 。 通 过 BDA ER, 
能 够 使 读者 更 加 规范 化 自己 的 程序 ,规范 文章 内 容 。 

BDA 的 亮点 主要 体现 在 以 下 几 个 方面 。 

CD 模型 分 步 演 示 : 使 得 学 生 学 会 更 加 清晰 的 逻辑 编程 思路 。 

(2) 丰富 的 理论 背景 知识 : 深刻 了 解 模型 背景 应 用 场景 ,拓宽 学 生 解 决 问题 的 思路 。 

G) R 语言 模型 新 建 编译 : 开放 编译 接口 .面向 大 数据 分 析 领 域 的 通用 型 语言 。 

(4) 图 形 结果 展示 : 一 个 页 面 展 示 多 个 图 形 结果 、 数 据 结果 ,方便 用 户 进 行 结果 分 析 。 

(5) 作业 管理 系统 : 提供 教学 的 管理 平台 ,将 课程 模型 资源 在 统一 的 平台 上 进行 管理 。 
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R JE — BP WR , e Mr f ei EA Pr f ,是 集 数据 分 析 2 l AK AS Hh RY As 
言 与 操作 环境 。R 凭借 强大 的 数据 处 理 ,数学 统计 分 析 等 功能 ,以 及 免费 自由 的 开源 特性 得 
到 各 类 社会 组 织 的 青睐 。 本 童 详细 介绍 R 的 特性 、 基 本 功能 及 R 包 的 获取 使 用 等 。 


3.1 R 语言 概 述 


R 语言 是 集 数 据 分 析 与 图 形 显示 于 一 体 的 编程 语言 ,是 一 种 专业 的 统计 分 析 软 件 。R 
从 根本 上 握 弃 了 套用 模式 的 傻瓜 式 数 据 分 析 方 式 , 它 将 数据 分 析 的 主动 权 和 选择 权 交 给 使 
用 者 本 身 。 数 据 分 析 人 员 可 以 根据 问题 的 背景 和 数据 的 特点 ,更 好 地 思考 从 数据 出 发 如 何 
选择 和 组 合 不 同 的 方法 ,并 将 每 一 层 输出 反馈 到 对 问题 和 数据 处 理 的 新 思考 上 。R 为 专业 
分 析 提 供 了 分 析 的 弹性 、 灵 活性 和 扩展 性 ,是 利用 数据 回答 问题 的 最 佳 平台 。 

R 语言 主要 有 以 下 儿 个 特点 。 

1. R 是 自由 软件 

之 所 以 称 及 是 自由 软件 ,是 基于 它 的 免费 和 开源 。R 是 一 个 用 于 统计 计算 的 很 成 熟 的 
免费 软件 ,同时 也 能 提供 和 其 他 同类 型 商业 统计 软件 一 样 好 的 功能 服务 。R 还 有 一 个 亮点 ， 
即 它 是 一 款 开 源 软件 ,用 户 可 以 和 全 球 一 流 的 统计 专家 合作 讨论 ,也 可 以 上 传 自己 的 软件 
包 , 可 以 说 R 是 全 世界 统计 学 家 思维 的 最 大 集中 地 。 现 如 今 ,开放 源 代 码 的 软件 在 科学 研 
究 和 工程 工作 中 越 来 越 受 到 追捧 。R 的 开源 性 使 得 它 从 20 世纪 90 年 代 被 开发 出 来 至 今 ， 
一 直 在 快速 发 展 中 。 

2. R 的 兼容 性 很 好 

R 的 兼容 性 体现 在 两 个 方面 : 一 方面 ,R 和 其 他 程序 设计 语言 的 语法 表述 相似 ,使 得 有 
一 定编 程 基础 的 人 学 习 起 来 容易 ,并 且 它 也 是 彻底 地 面向 对 象 的 统计 编程 语言 ,非常 容易 理 
解 和 使 用 ; 另 一 方面 ,R 可 以 实现 与 Excel SAS, SPSS 等 常用 统计 软件 的 数据 转换 ,也 可 以 
方便 地 插入 由 C 语言 等 编制 的 计算 机 程序 ,这 对 数据 整合 工作 非常 有 用 。 
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3. R 是 数据 可 视 化 的 先驱 

R 软件 提供 了 非常 丰富 的 2D 和 3D 图 形 库 ,是 数据 可 视 化 的 先驱 ,能 够 生成 从 简单 到 
复杂 的 各 种 图 形 ,甚至 可 以 生成 动画 ,满足 不 同 信息 展示 的 需要 。 

4. 不 断 更 新 的 加 载 包 

Google 首席 经 济 学 家 Hal Varian 说 :“R 变 得 如 此 有 用 和 如 此 快 地 广 受 欢 迎 是 因为 统 
计 学 家 工程师、 科学 家 能 够 用 它 精炼 代码 或 编写 各 种 特殊 任务 的 包 。R 包 增添 了 很 多 高 级 
算法 , 作 图 颜色 和 文本 注释 ,并 通过 数据 库 连接 等 方式 提供 了 挖掘 技术 。 金 融 服 务 部 门 对 R 
表现 出 了 极 大 的 兴趣 ,各 种 各 样 的 衍生 品 分 析 包 相继 出 现 。R 最 优美 的 地 方 是 它 能 够 根据 
自己 的 需求 修改 很 多 前 人 编写 的 包 的 代码 ,实际 上 你 是 站 在 巨人 的 肩膀 上 。” 

正 是 由 于 R 具有 免费 开源、 模块 多 样 齐全 等 众多 特点 , 且 在 综合 R 档案 网 络 
(Comprehensive R Archive Network,CRAN) 中 提供 了 大 量 的 第 三 方 功能 包 , 其 内 容 涵盖 
了 从 统计 计算 到 机 器 学 习 , 从 金融 分 析 到 生物 信息 ,从 社会 网 络 分 析 到 自然 语言 处 理 ,从 各 
种 数据 库 、 各 种 语言 接口 到 高 性 能 计算 模型 ,可 以 说 无 所 不 包 , 无 所 不 容 , 这 也 是 为 什么 R 
获得 越 来 越 多 各 行 各 业 的 从 业 人 员 喜 爱 的 一 个 重要 原因 。 

KW R 的 统计 软件 种 类 有 很 多 ,最 常见 的 有 以 下 5 种 ,它们 有 各 自 的 优 缺 点 。 

COD SAS: 内 容 全 面 ,价格 昂贵 ,支持 编程 ,是 数据 处 理 和 统计 分 析 的 专用 软件 。 

(2) SPSS; 操作 简单 .无需 编程 .输出 漂亮 、 功 能 齐全 、 价 格 合理 , 非 统计 专业 人 员 的 首 
选 软件 。 

(3) Eviews: 具有 强大 的 多 元 回归 和 时 间 序 列 分 析 功 能 ,计量 专业 首选 软件 。 

(4) Matlab: 功能 强大 的 编程 软件 ,矩阵 运算 快 ,统计 分 析 功 能 较 少 ,是 数值 计算 和 图 
像 处 理 的 首选 软件 。 

(5) Excel: 具有 简单 的 统计 分 析 功 能 ,是 商务 办 公 软 件 。 

这 些 软件 的 共同 缺点 : 其 一 是 “黑匣子 ”, 即 源 代码 不 公开 ,只 能 运用 已 有 功能 ,不 能 根 
据 自身 特殊 需要 进行 修改 ; 其 二 是 “傻瓜 软件 ”, 对 于 一 些 简 单 分 析 , 傻 瓜 式 操作 简 使 ,适用 
于 非 统 计 专 业 人 士 ,但 是 进行 一 些 深入 分 析 时 就 无 法 胜任 或 者 步 又 繁复 。 


3.2 R 的 下 载 . 安 装 和 使 用 


3.2.1 RGui 界面 


R 软件 的 获取 及 安装 过 程 如 下 : 

CD 登录 R 语言 官网 (http://www. r-project. org/) ,可 以 看 到 如 图 3. 1 所 示 界 面 。 

(2) 单 击 左 侧 菜单 栏 的 CRAN 链接 ,进入 图 3. 2 所 示 页 面 ,有 一 系列 国家 名 称 排序 的 
镜像 网 站 ,选择 与 你 所 在 地 相近 的 网 站 。 

(3) 依据 自己 计算 机 系统 选择 对 应 的 下 载 ,本 书 以 Windows 为 例 ,如 图 3.3 所 示 。 

(4) 单 击 base 链接 进入 图 3. 4 所 示 页 面 ,现在 R 更 新 到 3. 1. 1 版 本 , 单 击 Download 
R-3.1. 1 for Windows 链接 。 

(5) 下 载 完成 后 双击 程序 文件 进行 安装 ,安装 完成 后 便 可 以 运行 R, 界 面 如 图 3. 5 
所 示 。 
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R for Windows 


Subdirectories: 
ims Rinaries for hace distribution (managed by Duncan Murdoch) This is what yon want to 
- install R for the first time 
Binaries of contributed packages (managed by Uwe Ligges). There is also information on 
contrib third party software available for CRAN Windows services and corresponding environment 
and make variables. 
Rtools Tools to build R and R packages (managed by Duncan Murdoch). This is what you want to 


build your own packages on Windows, or to buld R itse. 


Please do not submit binaries to CRAN. Package developers might want to contact Duncan Murdoch or Uwe Ligges directly in 
case of questions / suggestions related to Windows binaries. 


You may also want to read the R FAQ and R for Windows FAQ. 


Note: CRAN does some checks on these binaries for viruses, but cannot give guarantees. Use the normal precautions with 
downloaded executables. 


图 3.3 Windows 系统 的 R 下 载 选择 界面 


R-3.1.1 for Windows (32/64 bit) 


New features in this version 


1f you want to double-check that the package you have downloaded exactly matches the package distributed by R, you can 
compare the má5sum of the .exe to the troc fingerprint. You will need a version of máSsum for windows: both graphical and 
command line versions are available. n 


Frequently asked questions 


* How do | install R when using Windows Vista? 
* How do I update packages in my previous version of R? 
* Should I run 32-bit or 64-bit R? 


Please see the R FAQ for general information about R and the R Windows FAQ for Windows-specific information. 


Other builds 


* Patches to this release are incorporated in the r-patched snapshot build. 

* A buld of the development version (which will eventually become the next major release of R) is available in the r-devel 
snapshot buid. 

© Previous releases 


Note to webmasters: A stable link which will redirect to the current Windows hinary release is S 


图 3.4 Windows 系统 的 R-3. 1. 1 下 载 界 面 
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R version 3.1.0 (2014-04-10) -- "Spring Danc: 
|Copyright (C) 2014 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任何 担保 - 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 . 
用 "1icense() ' 或 'licence() "来 看 获 布 的 详细 条 件 。 
R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 和 贡献 . 
用 'concriburors() "来 看 合作 者 的 详细 情况 
用 'cirarion() "会 洁 诉 你 如 何在 出 版 物 中 正 硫 地 引用 8 或 R 程 序 包 - 
用 'demo () "来 看 一 些 示范 程序 Ae pap: Twesumion, * 
Ar heap. stare () ' 通 过 aryr 浏 览 器 来 看 帮 
"ao " 


图 3.5 R 运行 界面 


3.2.2 RStudio 界面 


可 以 选择 下 载 RStudio, 界 面 更 加 友好 ,设计 更 加 人 性 化 ,建议 读者 下 载 使 用 ,如 图 3. 6 
所 示 。 下 载 地 址 为 http://www. rstudio. com/. 

运行 RStudio, 可 以 看 到 它 是 由 顶端 的 工具 栏 和 4 个 小 窗口 组 成 ,分 别 是 文档 编辑 窗 
口 数据 变量 窗口 ,操作 台 窗 口 和 结果 展示 窗口 。 

1. 文档 编辑 窗口 

关于 创建 R 文档 ,选择 File>New File>R Script 命令 ,或 者 按 Ctrl 十 Shift 十 N 组 合 
键 ,就 可 以 创建 一 个 新 的 R 文档 ,如 图 3.7 所 示 。 建 议 在 使 用 R 时 创建 一 个 文档 进行 编辑 ， 
可 以 保留 自己 的 程序 代码 ,以 便 出 错时 进行 修改 。 

2. 数据 变量 窗口 

给 变量 赋值 以 后 会 显示 在 此 窗口 ,另外 RStudio 还 提供 了 已 安装 软件 包 变量 名 和 函数 
名 查询 。 

3. 操作 台 窗 口 

在 该 窗口 可 以 进行 命令 输入 ,数据 结果 也 是 在 这 里 显示 。 

4. 结果 展示 窗口 

各 种 酷 炫 的 图 表 都 将 在 此 窗口 展示 ,help 的 内 容 也 在 这 里 显示 ,如 果 使 用 尺 语言 ,使 用 
帮助 (Help) 命 令 将 会 弹出 网 页 。RStudio 还 提供 了 快速 加 载 软件 包 的 功能 ,在 后 面 的 章节 
会 进行 详细 的 说 明 。 

5. RStudio 常用 组 合 键 

* Ctrl 十 L: 清 除 控制 台 输出 。 
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拉 diamonaPricing R° x  OjfommatPlotR x _| diamonds x "Workspace History atl 
5 |G Disoureonsme Q Z- => 2> E| Pioa- 日 se” Gp impon datasets if lear an 
Tibrary(ggplot2) Data 

source C’plats/formatrTor- a7) diamonds 53940 obs. of 10 variables 

Vien diamonds) Values 

Summary (diamonds avesize 0.7979 


sunmary (diamonds Spr ice) city jcturaccer £83 


wovounsunn 


avesize <- round(mean(diamondsScarat), 4) P goplot [8] 
clarity < levels(diamondssclarity) 


10 Functions 
it p < qplot(carat, price, format.plot(plot, size) 
12 data-diamonds, color-clarity, 

13 xlab="carat", ylab-"Price", 
14 main-"piamond Pricing") 

15 Files Plots Packages Help 


Prom Mepote OS af Crear Ait 


Diamond Pricing 
bal 


258.900 
> summary (diamonds Spr ice) 
Min. Ist Qu. Median Mean 3rd Qu. — Wax. 
326 950 — 2401 3933 5324 18820 
> avesize <- round(mean(diamondsScarat), 4) 
> clarity <- levels(diamondsSclarity) 
p <- aplot(carat, price, 
data-diamonds, color=clarity, 
xlab-"carat", ylab-"price", 
main="Diamond Pricing") 


format.plot(p, size=24) 


图 3.6 RStudio 操作 界面 


| Edit Gode View Pots Session uid Qebug Jools Heb 


Runs ^| BScript Quis SNReN X Project None) 
New Project- 
R Markdown- | Emonmen History == 
fie. ako a à 5 
ze Jet Fle cO Pinot oat: Zoe 回 "m 
Reopen with Encoding- iu taninar a 
Recent Files , 
R 
Open Project. eee ea 
Open Project in New 
pen Project: Window.. Men E 
R Documentation. 
Save cules 
Save As... 
[o Viewer =o 
CtrleShift+ Rename GF Moree @ 
see Modified 
os Jul 16, 2014, 601 PM 


Close all 


Close Project 


Quit Studio... cul+Q 
Type Ticensed) or TicenceO for distribution details. 


R is a collaborative project with many contributors. 
Type "contributorsQ)' for more information and 
"Citation on how to cite R or R packages in publications. = 


Type 'demoQ for some demos, "helpO' for on-line help, or 
'help.start()' for an HTML browser interface to help. 
Type "qQ' to quit m. 


3.7 RStudio 文档 创建 


。 Ctrl 十 Enter: 运 行 光标 所 在 行 的 R 代码 或 者 当前 选中 行 的 R 代码 。 
* Ctrl 二 Shift 十 S: 加 载 当 前 R 文 件 并 运行 。 
。 Ctrl 十 D: 删 除 整 行 。 


* Ctr 十 Shift 十 C: 注 释 / 取 消 注 释 当前 行 。 可 以 选中 整个 代码 块 进行 注释 。 


3.2.3 R 的 运行 


Windows 中 可 单 击 R 的 快捷 方式 或 在 “开始 "菜单 中 单 击 R 软件 图 标 运行 R。 而 在 
Linux 系统 下 ,需要 在 终端 窗口 中 输入 之 R, 然 后 按 Enter 键 即 可 运行 。 在 Mac 上 需要 找到 


应 用 程序 文件 夹 双 击 运行 ,如 图 3.8 所 示 。 


R version 2.11.1 (2010-05-31) 
Copyright (C) 2010 The R Foundation for Statistical Computing 
ISBN 3-900051-07-0 


R 是 自由 软件 ， 不 带 任何 担保 . 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 
用 'license() ' 或 'licence() ' 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 

用 'contributors() ' 来 看 合作 者 的 详细 情况 

用 'ciracion () ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 
用 'demo () ' 来 看 一 些 示范 程序 ， 用 'help()* FEREARE 或 
用 'help.start () ' 通 过 aTML 浏 览 器 来 看 帮助 文 

M'ap 3B Bin. 


图 3.8 Windows 中 的 R 启动 界面 


在 软件 使 用 过 程 中 , 遇 到 问题 可 尝试 使 用 R 中 的 帮助 函数 及 文档 。 常 用 的 帮助 函数 如 


表 3. 1 所 示 。 
表 3.1 R 常 用 帮助 函数 
K å A x 能 
help. start() 打开 帮助 文档 首页 (可 查看 入 门 和 高 级 帮助 手册 、 常 见 问题 集 ) 
data() 列 出 当前 已 加 载 包 中 所 含 的 所 有 可 用 示例 数据 集 
example("foo") 函数 foo 的 使 用 示例 (引号 可 以 省 略 ) 
vignetteC"foo") 为 主题 foo 显示 指定 的 vignette 文档 


vignette() 


列 出 当前 已 安装 包 中 可 用 的 vignette 文档 ,一 般 为 实用 性 介绍 


文章 
help. search("foo") 或 ?? foo 以 foo 为 关键 词 搜索 本 地 帮助 文档 
help(" foo") 或 ? foo 查看 函数 foo 的 帮助 (引号 可 以 省 略 ) 


apropos("foo" ,mode= "function") 列 出 名 称 中 含有 foo 的 所 有 可 用 函数 


RSiteSearch("foo") 以 foo 为 关键 词 搜索 在 线 文档 和 邮件 列表 存档 
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使 用 R 帮助 文档 有 以 下 两 种 情况 。 

Cb 知道 需要 查询 的 关键 字 属 于 什么 包 , 则 在 console 中 输入 之 ? (e ,问号 后 为 所 需 
查询 的 关键 字 。 

(2) 不 知道 该 关键 字 属 于 什么 包 , 则 在 console 中 输入 之 ?? xx , 比 第 一 种 情况 多 出 一 
个 问号 。 

在 查询 关键 字 所 属 包 的 时 候 , 若 R 中 无 此 包 , 则 需 提前 加 载 。 以 ggplot 关键 字 为 例 , 需 
要 加 载 ggplot2 包 , 需 提前 安装 该 包 ?， 

> install. packages("ggplot2") 

> library(ggplot2) 

R 提供 的 大 量 帮 助 性 功能 ,通过 R 常用 函数 及 帮助 文档 查看 某 些 函 数 如 返回 值 或 选项 
上 的 功能 ,可 以 帮助 更 好 地 学 习 编 程 ,这 也 是 它 的 亮点 之 一 。 


3.2.4 工作 目录 和 工作 空间 


工作 目录 (Working Directory) J: R 用 来 读 取 文 件 、 保 存 结果 的 默认 目录 。 使 用 getwd() 命 
令 可 获得 R 的 工作 目录 ,使 用 setwd() 可 重新 设置 当前 的 工作 目录 位 置 2, 不 过 setwd() 重 
新 设置 的 目录 必须 是 已 存在 的 目录 位 置 , 可 以 使 用 dir. create() 来 创建 新 目录 ,然后 通过 
setwd() 重 新 将 工作 目录 指向 新 创建 的 目录 。 工 作 空 间 (Workspace) 即 R 工作 的 环境 ,用 户 
所 定义 的 诸如 向 量 矩阵、 函数 .列表 等 对 象 就 保存 在 工作 空间 中 。 

下 面 列 出 了 获取 和 设 定 工作 目录 的 常用 方法 。 

1. 通过 命令 行 获取 和 设 定 工作 目录 


> getwd() 

[1] "C:/Users/nin. 1i/Documents" 

> setwd("E:/GTA 工作 /R 软件/ 实务 教材 ") 

这 里 值得 注意 的 是 ,在 设置 路 径 时 ,初学 者 经 常会 错误 地 使 用 二 setwd("E:\GTA 工作 
NR 软件 \ 实 务 教材 ") ,但 是 可 以 使 用 命令 > setwd("E:\\GTA 工作 \\R 软件 \\ 实 务 教 
M"), 

注意 : 在 使 用 setwd() RA EHE 3 3 T 4E H Mp. 2 P 893542480 REE 
CD) ,即使 在 Windows 系统 下 也 是 如 此 ,而 反 针 杠 在 及 中 被 作为 一 个 转 义 符 。 

2. 通过 工具 栏 获取 和 设 定 工作 目录 

如 果 是 R 语言 ,那么 选择 "文件 ”改变 工作 目录 ”命令 , 即 可 查看 和 设 定 工作 目录 ,如 
图 3.9 所 示 。 

如 果 是 RStudio, 那么 选择 Session > Set Working Directory 下 的 To Source File 
Location 命令 进行 工作 目录 查看 ,选择 Choose Directory 命令 进行 工作 目录 的 设 定 ， 
如 图 3. 10 所 示 。 

在 一 个 R 会 话 结束 时 ,可 以 将 当前 工作 空间 保存 到 一 个 镜像 中 ,并 在 下 次 启动 R 时 自 


(D http://blog. sina. com. cn/s/blog_744c2fb701014su8. html. 
@ http://www. biostatistic. net/thread-3228-1-1. html. 
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KE bim. 
ce () ' 来 看 散布 的 详细 条 件 - 


人 为 之 做 出 了 贡献 . 
合作 者 的 详细 情况 
丈 如 何在 出 版 物 中 正确 地 引用 8 或 R 程 序 包 。 


EEF, Hi'neipo ' 来 阅读 在 线 帮助 文件 ， 或 
有 HTML 浏览 器 来 看 帮助 文件 。 


图 3.9 RR 平台 下 的 工作 目录 设 定 


File Edit Code View Plots 


[BP -l m s Interrupt R 
Restart R 


P Untitledl x ^ jeeneeee 
E source on Save Terminate R... [Run 2% Source + 
| 63 dimnames(a)-list( = = — == 
Ga matrixcl.2,2) | Set Working Directory To Source File Location 
65 B=diag(3) IE " 
66 x-matrix(1:4,2) Load Workspace. een 
67 Merci Save Workspace As... Choose Directory... Ctrl+Shift+H 
xD2] ' Clear Workspace... 
x[,c(1,2) ,drop-F] $ 
m-matrix(rnorm(n-12),nrow-3) 
apply(m,2,mean) 
?Puromycin 
summary (Puromycin) 
pairs (Puromycin, panel=panel. smooth) 
xtabs (~state+conc, dat. iromycin) 
subset (Puromycin, stat treated"&rate-160) 
ts (1:47 ,frequency-12,start-c(1959,2)) 
ts(1:10,frequency-4,start-c(1959,2)) 
ts(matrix(rpois(36,5),12,3),frequency-12,start-c(1961,1)) 
demo(graphics) 
demo(persp) 
plotí(rnorm(1000)) 
?par 
dim(Puromycin) 
head(Puromycin) 
T. 


Formula 


B (Top Level manipuld 


plm 


3.10 RStudio 的 工作 目录 设 定 


动 载 人 它 。 一 般 在 关闭 软件 的 时 候 会 弹出 提示 窗口 ,如 图 3. 11 所 示 。 
也 可 以 使 用 命令 语句 在 没有 退出 R 软件 的 情况 下 保存 工作 空间 ,比如 要 去 做 其 他 事 
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e 县 天 保存 工作 空间 歇 信 ? 


(Lam ][ 8m J[ w ) 
图 3.11 工作 空间 是 否 保留 提示 界面 


情 ,防止 中 途 偶然 的 电源 或 计算 机 故障 导致 数据 丢失 。 


> save. image() 
保存 工作 空间 以 后 ,下 一 次 启动 R 时 会 自动 还 原 。 但 是 ,工作 空间 不 能 保存 当前 打开 
的 图 形 , 退 出 以 后 就 会 消失 ,所 以 一 定 要 记得 保存 制图 代码 。 
在 R 工 作 空间 的 管理 上 涉及 一 些 常 用 函数 ,如 表 3.2 所 示 。 
表 3.2 R 工作 空间 常用 管理 函数 


K 数 功 能 
getwd() 显示 当前 的 工作 目录 
setwd("R-TEST") 重新 设置 当前 的 工作 目录 位 置 为 R-TEST 
qO 退出 RR 
IsO 列 出 当前 工作 空间 中 的 对 象 
rm(objectlist) 移 除 (删除 ) 一 个 或 多 个 对 象 
options() 显示 或 设置 当前 选项 
help(options) 显示 可 用 选项 的 说 明 
history( # ) Tis k r EEA ir ORV 25) 
loadhistory("myfile") 载 入 一 个 命令 历史 文件 (默认 值 为 . Rhistory) 
savehistory("myfile") 保存 命令 历史 到 文件 myfile 中 (默认 值 为 . Rhistory) 
save. image( "myfile") 保存 工作 空间 到 文件 myfile 中 (默认 值 为 . RData) 
save(objectlist, file="myfile") 保存 指定 对 象 到 一 个 文件 中 
load(" myfile") 读 取 一 个 工作 空间 到 当前 会 话 中 (默认 值 为 .RData) 


3.2.5 R 语言 的 帮助 


单 击 RStudio 图 表 展 示 窗 口 的 Help, 这 时 展示 窗口 充当 网 页 展示 窗口 。 图 3. 12 所 示 
为 帮助 文件 首页 ,里 面 展 示 的 是 已 经 安装 到 本 地 的 帮助 文档 。 如 果 使 用 R 的 话 ,也 可 以 通 
过 如 下 调用 语句 进入 帮助 ,将 弹出 网 页 链接 。 


> help. start() 


界面 中 最 常 使 用 的 是 Reference( 引 用 ) 部 分 的 两 个 链接 : 

。 Packages(R 软件 包 ) :每 个 Package 都 有 大 量 数据 和 可 以 读 写 修改 的 函数 /程序 ,R 
的 强大 也 在 于 此 ,这 里 有 来 自 全 世界 的 统计 学 家 和 数据 分 析 师 编写 的 及 软件 包 可 以 
供用 户 使 用 ,而 Packages 帮助 文档 包含 base 基础 包 和 已 经 安装 的 包 , 单 击 软件 包 名 
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Manuals 
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Partages Seach Engine & Keywords 


— Miscellaneous Material 


Material specific to the Windows port 


CHANGES IR 2150 Windows FAQ. 
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FA 3.12 RStudio 的 帮助 界面 


就 可 以 查看 函数 和 数据 集 。 

* Search Engine & Keywords( 搜 索引 擎 与 关键 字 ) : 输入 关键 字 可 以 搜索 相关 的 帮助 
文档 。 也 可 以 通过 比较 快捷 的 方法 查看 函数 帮助 ,例如 : 

查看 某 函 数 的 帮助 文档 : 

> help(function) 

f HE PH RLY BL 

> args(function) 


查看 某 函 数 的 使 用 示例 : 


> example(function) 


3.3 RW 


3.3.1 包 的 获取 

CRAN 上 面 发 布 了 5000 多 个 软件 包 , 资 源 在 哪 ? 怎么 使 用 呢 ? 现在 告诉 读者 怎么 才 
能 找到 自己 研究 需要 的 包 。 

CD 在 RR 官网 单 击 CRAN ,选择 离 自 己 距离 近 的 镜像 网 ,也 可 以 直接 单 击 网 址 http:// 
cran. rstudio. com/ ,进入 图 3. 13 所 示 页 面 。 

(2) 在 左 侧 导航 条 第 一 部 分 CRAN 下 可 以 单 击 Task Views 链接 查看 任务 视图 , 如 


图 3. 14 所 示 。 
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About R 
R Homepage 
The R Journal 


Software 
R Sources 


The Comprehensive R Archive 


Network 


[Download and Install R 


IPrecompiled binary distributions of the base system and contributed 
‘packages, Windows and Mac users most likely want one of these versions 


ofR: 


» Download R for Linux 


R is part of many Linux distributions, you should check with your Linux 
package management system in addition to the link above. 


[Source Code for all Platforms 


图 3.13 R 的 资源 获取 界面 


,ClinicalTrials 


ICRAN Cluster Cluster Analysis & Finite Mixture Models 
Mirrors DifferentialEquations Differential Equations 
Whats new? Distributions Probability Distributions 
Task Views " 
Sn | Econometrics Econometrics 
1 Environmetrics Analysis of Ecological and Environmental Data 
About R ExperimentalDesign Design of Experiments (DoE) & Analysis of 
IR Homepage Experimental Data 
The R Journal Finance Empirical Finance 
|sofiware ! Genetics Statistical Genetics 
Ik Sources Graphics Graphic Displays & Dynamic Graphics & Graphic 
R Binaries Devices & Visualization 
[Pac HighPerformanceComputing Higl nce and Parallel Computing with R 


CRAN Task Views 


Bayesian Inference 
Chemometrics and Computational Physics 
Clinical Trial Design, Monitoring, and Analysis] 


图 3.14 R 的 包 界 面 
Task Views 里 面 按照 学 科 领 域 分 门 别 类 , 现 有 的 学 科 分 类 如 表 3. 3 所 示 。 


表 3.3 R 应 用 领域 
CRAN Task Views 

Bayesian Bayesian Inference 贝 叶 斯 推理 分 析 
ChemPhys Chemometrics and Computational Physics 化 学 计量 学 和 计算 物理 

i 设计 、 
ClinicalTrials Clinical Trial Design, Monitoring,and Analysis ae aii. 

聚 类 分 析 和 有 限 混 合 
Cluster Cluster Analysis & Finite Mixture Models | yy a " 
DifferentialEquations Differential Equations 微分 方程 
Distributions Probability Distributions 概率 分 布 
Econometrics Computational Econometrics 计量 经 济 学 


续 表 
CRAN Task Views 
Environmetrics Analysis of Ecological and Environmental Data 生态 环境 数据 分 析 
— IDesi Design of Experiments (DoE) & Analysis of| 实验 设计 (DoE) 和 实验 
Saee Experimental Data 数据 分 析 
Finance Empirical Finance 实证 金融 
Genetics Statistical Genetics 统计 遗传 学 
S Graphic Displays & Dynamic Graphics &| 图 形 显示 和 动态 图 形 和 
bu Graphic Devices & Visualization 图 形 设备 和 可 视 化 
High-Perf d Parallel Computi à igh 

HighPerformanceComputing enn, A Poe iiis 高 性 能 计算 和 并 行 计 算 
— with R 
MachineLearning Machine Learning & Statistical Learning 机 器 学 习 
MedicalImaging Medical Image Analysis 医学 图 像 分 析 
MetaAnalysis Meta-Analysis SRD 
Multivariate Multivariate Statistics 多 元 统计 分 析 
NaturalLanguageProcessing | Natural Language Processing 自然 语言 处 理 
NumericalMathematics Numerical Mathematics 计算 数学 
OfficialStatistics Official Statistics & Survey Methodology 政府 统计 和 社会 调查 

化 和 数学 规划 (运筹 
Optimization Optimization and Mathematical Programming 
Pharmacokinetics Analysis of Pharmacokinetic Data 药物 动力 学 数据 分 析 
Phylogenetics Phylogenetics,Especially Comparative Methodd 系统 发 生 学 ,比较 方法 
Psychometrics Psychometric Models and Methods 心理 学 模型 和 方法 
ReproducibleResearch Reproducible Research 可 重复 性 研究 
Robust Robust Statistical Methods 稳健 统计 方法 
SocialSciences Statistics for the Social Sciences 社会 科学 统计 
Spatial Analysis of Spatial Data 空间 数据 分 析 
SpatioTemporal Handling and Analyzing Spatio-Temporal Data| 时 空 数据 处 理 和 分 析 
Survival Survival Analysis 生存 分 析 
TimeSeries Time Series Analysis 时 间 序 列 分 析 
WebTechnologies Web Technologies and Services 网 络 技术 和 服务 
gR gRaphical Models in R 制图 模型 
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(3) 单 击 相关 学 科 , 进 入 到 该 学 科 类 别 , 以 计量 经 济 学 (Econometrics) 为 例 , 如 图 3. 15 
所 示 。 


CRAN Task View: Econometrics 


Maintainer: Achim Zeileis 
Contact: Achim Zeileis at R-project.org 
Version: 2015-03-25 


Base R ships with a lot of functionality useful for computational econometrics, in particular in the] 
stats package. This functionality is complemented by many packages on CRAN, a brief overview 
is given below. There is also a considerable overlap between the tools for econometrics in this 
view and those in the task views on Finance, SocialSciences, and TimeSeries Furthermore, the 

4 Finance SIG is a suitable mailing list for obtaining help and discussing questions about both 
computational finance and econometrics. 


|About R 

R Homepage ‘The packages in this view can be roughly structured into the following topics. If you think that 
The R Journal some package is missing from the list, please contact the maintainer. 

Software Basic linear regression 

R Sources 

R Binaries * Estimation and standard inference : Ordinary least squares (OLS) estimation for linear 
Packages models is provided by 1 () (from stats) and standard tests for model comparisons are 


图 3.15 计量 经 济 学 的 包 文件 示例 


页 面 给 出 的 这 个 计量 经 济 学 系列 的 包 中 大 致 包括 以 下 几 个 主题 。 

* Linear regression models: 线性 回归 模型 。 

* Micro econometrics: 微观 经 济 学 。 

。 Further regression models: 其 他 的 回归 模型 。 

。 Basic time series infrastructure: 基本 的 时 间 序 列 架 构 。 

* Time series modeling: 时 间 序 列 模型 。 

每 个 主题 都 进行 了 简单 的 介绍 ,包括 各 个 主题 下 有 些 什么 软件 包 , 以 及 该 软件 包 的 功 
能 。 页 面 按照 字母 表 顺 序列 出 了 该 学 科 相 关 的 所 有 Packages, 还 给 出 了 相关 的 CRAN 
Task View. WR TEXT Task View 找 不 到 ,可 以 去 相关 的 Task View 继续 找 。 有 了 导航 就 
能 轻松 地 找到 需要 的 软件 包 了 。 


3.3.2 包 的 安装 


找到 需要 的 软件 包 Name 以 后 就 开始 下 载 安 装 软件 包 。 有 以 下 几 种 方法 可 以 进行 
安装 : 

(1) 网 页 软件 包 名 ,以 plm(Linear Models for Panel Data) 面 板 数 据 的 线性 模型 软件 包 
为 例 (如 图 3. 16 所 示 ) 来 进行 说 明 。 

上 面 有 作者 及 软件 包 的 一 些 相关 信息 ,选择 Windows 进行 下 载 。 

如 果 使 用 了 ,选择 “程序 包 ”-* 从 本 地 zip 文件 安装 程序 包 ” 命 令 , 然 后 选择 下 载 好 的 压 
缩 包 即 可 进行 安装 ,如 图 3. 17 所 示 。 

如 果 在 RStudio 里 面 进行 安装 ,选择 Tools— Install Packages 命令 ,如 图 3. 18 所 示 。 

弹出 图 3. 19 所 示 窗 口 ,在 Install from 下 拉 列 表 中 选择 Package Archive File 选项 , 然 
后 选取 之 前 下 载 的 压缩 包 即 可 完成 安装 。 

(2) 知道 自己 需要 下 载 安 装 的 Packages 的 name, 可 以 直接 在 软件 中 完成 下 载 安 装 。 

如 果 使 用 RR, 可 以 选择 “程序 包 ”>“ 安 装 程序 包 ” 命 令 进行 安装 ,如 图 3. 20 所 示 。 
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plm: Linear Models for Panel Data 
A set of estimators and tests for panel data. 
Version: 14-0 
. Depends: R (72.10), Formula (> 0.2-0), stats 
CRAN Imports: i 
[Mirrors Suggests: 
|What's new? “soq 
Task Views Published: 2013-12-28 
Author: Yves Croissant [aut cre], Giovanni Millo [aut], Ame Henningsen [ctb], Ott 
Toomet [ctb], Christian Kleiber [ctb], Achim Zeileis [ctb] 
|About R Maintainer: Yves Croissant <yves.croissant at univ-reunion, fi> 
|R Homepage License: GPL-2 | GPL-3 [expanded from: GPL (> 2)] 
The R Journal 
URL: http://www R-project org 
ISofiware NeedsCompilation: no 
|R Sources. Citation: plm citation info. 
inanes Materials: NEWS 
viaa In view: Econometrics, SpatioTe1 


图 3.16 包 的 信息 


> x«-rnorm(100) 

> plot (x) 

> utils:::menuIns 

--- ENRE E 

错误 于 install packages (NULL, 
没有 设 定 程序 包 


.libParhs () [1L], dependencies = NA, type = type$ 


> utils:::menuInstallPkgs () 

RAFURL' http: //cran.rstudio.com/bin/windows/contrib/3.1/plm 1.4-0.zip' 
Content type 'application/zip' length 1323689 bytes (1.3 Mb) 
打开 了 URL 


downloaded 1.3 Mb 
程序 包 pin 打开 成 功 ，MD5 和 检查 也 通过 


下 载 的 二 进 制程 序 包 在 
C:\Users\wenhui .chen\AppData\Local\Temp\RtmpEJp2Iv\downloaded_packag$ |*| 


图 3.17 本 地 程序 包 的 安装 


File Edit Code View Plots Session Build Debug 


og- Balls Import Dataset 


Ol Untitiedt x | jeenReeee* CJZ Install Packages... 
3 sourceonswe Q Z+ E Check for Package Updates... = 
— 160 $2.6 - nis 
161 * fds=function(y) ( Version Control > 国 
162 n<- length(y) 
163 m <- mean(y) Shell... 
164 s<- sd(y) - - 
165 gl <- n/((n-1)* (n-2))*sum((y-m)^3) / Project Options... 
166 g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3)| N 2)/((n-2) 
167 a=c(m,s,g1,g2) Global Options... 


168  names(a)-c("33(8"," oi e". mu. 


170 } 

171 y-c(2,2.5,3,3,4,2,3,4,1,5) 

172 TEO 

173 #2. 

174 sex-cÇ"F", "F","F", "E", "E" M", "M", "M MT) 


175 age-c(i4, is5,17; us. 14,16,14,15,16) ` 


图 3.18 RStudio 包 的 菜单 选择 


大 数据 分 析 ，R 基 础 及 应 用 


Install Packages 


Install from: 
Package Archive File (zip; tar.gz) ~ 


Package archive: 


|| Browse... 


Install to Library: 
CiUsers/wenhui.chen/Documents/R/win-library/3.l [Default] | 


图 3.19 RStudio 包 的 安装 界面 


> x«-rnorm(100) 
> plot (x) 
> urils:::menuIns 


--- 在 此 巡 线 阶段 B 
没有 设 定 程序 包 


> utils:::menuInstallPkgs() 

试 开 URL'http://cran.rstudio.com/bin/windows/contrib/3.1/plm 1.4-0.zip" 
Content type 'application/zip' length 1323689 bytes (1.3 Mb) 
打开 了 URL 


downloaded 1.3 Mb 
BFA pin 打开 成 功 ，MD5 和 检查 也 通过 
下 载 的 二 进 制 程序 包 在 

> utils:::menuInstallPkgs () 


没有 设 定 程序 包 


> utils:: 


:menuInstallLocal () 


3.20 及 平台 的 包 安装 界面 


WRF install.packages (NULL, .libPaths()[1L], dependencies = NA, type = type$ 


C:\Users\wenhui .chen\AppData\Local\Temp\RtmpEJp2Iv\downloaded_packag$ 


错误 于 insral1.pacxages (NULL, .libPaths()[1L], dependencies = NA, type = type$ 


选择 后 会 弹出 清单 ,清单 是 按照 字母 表 顺 序 排 列 的 ,选择 plm 选项 , 单 击 “ 确 定 ” 按 钮 即 


可 完成 安装 ,如 图 3.21 所 示 。 


如 果 使 用 RStudio, 可 以 单 击 右 下 方 小 窗口 的 Packages. Wl 3. 22 所 示 。 
显示 的 是 已 经 安装 好 的 软件 包 , 单 击 Update 按钮 可 以 实现 对 已 经 安装 Packages 的 升 


级 。 单 击 Install 按钮 会 弹出 图 3. 23 所 示 窗 口 。 


在 Install from 下 拉 列 表 中 选择 Repository (CRAN ,CRANextra) 选 项 ,表示 从 网 上 下 
载 需要 安装 的 软件 包 , 安 装 路 径 Library 是 默认 的 。 在 Rackages (separate maltiple with 
space or comma) 文 本 框 中 输入 需要 下 载 安装 的 Packages 的 名 称 plm, 单 击 Install 按钮 就 
可 以 进行 安装 了 。 安 装 好 的 Packages 会 进入 软件 包 库 Library 里 面 ,并 且 自 动 显示 在 已 安 


装 的 条 目下 。 
(3) 无 论 R 还 是 RStudio 都 可 以 用 命令 实现 安装 ,语句 如 下 : 


install. packages("plm") 
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layering 
> 15: : :menuInscallPkgs () playitbyr 
ee oe — Playwith 
RT install packages (NULL, .libFaths () [1L], dependencies = NA, type = tj pim 
没有 设 定 程序 包 pep 
> acllattxmeaaTnacallprga () pink 
WFURL’ neep: //cran.rstudio.com/bin/windows/contrib/3.1/plm_1.4-0.zip" Pus 
Content type 'application/zip' length 1523689 bytes (1.3 Mb) [oe a 
FFT oR phmDE 
downloadea 1.3 Wb = 
BF pe 打开 成 功 ，xns 和 检查 也 通过 a 
下 载 的 二 进 制程 序 包 在 ad 
jsers\venhai .chen\AppData\Locel\Temp\RtmpeJp2Iv\ downloaded paci P809 
ai eenunacsliPEgs() A WSQ >a 
jut Finstall.packages (NULL, .libPaths()[1L], dependencies = NA, t: = ey Pes 
BAGEMER ae = H] pommcmc 
> utils:::menuInstallLocal(|) plotmo 
程序 包 "plmr 打 开 成 功 ，xDs 和 检查 也 通过 plotpe 
> wrileitrmenuinstallPkgs () PlotRegionHightgher 
plotrix 


3.21 RR 平台 的 包 名 称 选择 


| Files Plots Packages Help Viewer AE 
Bl instal | @ update © Q ) 
Name É | Description esi 
User Library 
[E] manipulate Interactive Plots for RStudio 098945 ° 
| E] rstudio Tools and Utilities for RStudio 098945 o 
System Library 
E boot Bootstrap Functions (originally by Angelo Canty for S) 134i el! 
| E] dass Functions for Classification 7340 oj 
| E cluster Cluster Analysis Extended Rousseeuw et al. 1152 o 
| E codetools Code Analysis Tools for R 02-8 e 
| E] compiler The R Compiler Package 310 o 
datasets The R Datasets Package. 310 o 
| [E foreign Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat, Weka, dBase... — 08-61 ° 
graphics The R Graphics Package 310 o 
grDevices The R Graphics Devices and Support for Colours and Fonts 310 ° 
E grid The Grid Graphics Package 310 ° 
E KernSmooth Functions for kernel smoothing for Wand & Jones (1995) 22342 o 
| F] lattice Lattice Graphics 0.20-29 ° 
| E MASS Support Functions and Datasets for Venables and Ripley's MASS 73-31 ° 


图 3.22 显示 RStudio 中 已 经 安装 好 的 包 
建议 读者 先 在 官网 了 解 软件 包 的 功能 ,然后 再 在 软件 中 直接 进行 下 载 安装 。 
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大 数据 分 析 : R 基 础 及 应 用 


Install Packages 
Install from: ?. Configuring Repositories 
[Repository (CRAN, CRANextra) ` 


Packages (separate multiple with space or comma): 
[ - ] 
Install to Library: 

[Ci/Users/wenhui.chen/Documents/R/win-library/3.1 [Default] | 


回 Install dependencies 


图 3.23 RStudio 包 的 安装 界面 


3.3.3 包 的 加 载 


Packages 安装 好 以 后 要 加 载 才 能 使 用 ,没有 加 载 的 话 软件 包 中 的 函数 是 无 法 调用 的 。 
R 开启 后 自 带 的 标准 包 已 经 加 载 好 ,可 以 直接 使 用 ,比如 base、datasets、graphics 等 。 不 带 
任何 参数 的 library() 打 开 当 前 系统 中 所 有 包 介绍 信息 


> library() 


如 果 要 使 用 其 他 软件 包 , 可 以 使 用 命令 语句 library() 进 行 加 载 ,使 用 以 后 将 它 从 内 存 
释放 ,例如 : 

# 加载 Mass 软件 包 

> library(MASS) 

* i aX MASS 软件 包 

> detach("package:MASS", unload = TRUE) 

如 果 使 用 RStudio, 可 以 用 更 加 快捷 的 方式 进行 Packages 的 加 载 ,如 图 3. 24 所 示 。 
RStudio 右 下 方 小 窗口 的 Packages 选项 ,菜单 中 显示 了 已 经 安装 好 的 软件 包 , 选 中 该 软件 
包 可 以 实现 加 载 ,取消 选中 可 以 使 软件 包 从 内 存 中 释放 。 


Files Plots Packages Help Viewer ze 
Bl instan @ upate © Q 

Name Description Version 
User Library “| 
回 bdsmatrix Routines for Block Diagonal Symmetric matrices 134 | 
[E Formula Extended Model Formulas 112 
manipulate Interactive Plots for RStudio 098945 | 
E pm Linear Models for Panel Data 140 E 
studio Tools and Utilities for RStudio 098 945 | 
sandwich Robust Covariance Matrix Estimators 234 | 
200 S3 Infrastructure for Regular and Irregular Time Series (Z's ordered 1741 | 

observations) 

System Library 
E boot Bootstrap Functions (originally by Angelo Canty for S) 134 


3.24 通过 界面 操作 加 载 包 
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每 个 library 都 有 许多 数据 ,可 以 使 用 data() 查 看 library 中 的 数据 。 例 如 , 调 出 数据 


Titanic, 


> data(Titanic) 
> Titanic 


,, Age = Child, Survived = No 


Sex 
Class Male Female 
1st 0 0 
2nd 0 0 
3rd 35 17 
Crew 0 0 


,, Age = Adult, Survived = No 


Sex 
Class Male Female 
lst 118 4 
2nd 154 13 
3rd 387 89 
Crew 670 3 


,, Age = Child, Survived = Yes 
Sex 
Class Male Female 
1st 5 1 
2nd 11 13 
3rd i3. 14 
Crew 0 0 


+, Age = Adult, Survived = Yes 
Sex 
Class Male Female 
1st 57 140 
2nd 14 80 
3rd 75 76 
Crew 192 20 


3.3.4 包 的 使 用 


成 功 载 人 包 后 便 可 以 调用 包 中 相应 的 函数 及 数据 集 。R 包 一 般 都 包含 了 相应 的 数据 集 
及 示例 代码 ,方便 用 户 了 解 该 包 的 功能 及 使 用 。 包 中 函数 描述 及 数据 集 的 信息 包含 在 帮助 
系统 中 ,可 以 运用 helpO 〇 查看 包 的 功能 及 包 中 函数 和 数据 集 的 使 用 等 具体 细节 。 
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R 语 言 基 本 操作 


R 语 言 有 一 些 基础 的 操作 命令 ,包括 赋值 .向 量 运 算 、 和 矩阵 运算 、 元 素 运 算 、 旭 辑 运 算 及 


简单 的 函数 运算 等 。 需 要 注意 的 是 ,R 语言 区 分 字母 的 大 小 写 , 比 如 变量 A 和 变量 a 代表 
不 同 的 变量 名 称 。 


4.1 数据 结构 


R 的 数据 结构 包括 向 量 、 和 矩阵 、 数 组 数据 框 、 列 表 和 因子 等 。R 可 以 处 理 的 数据 类 型 
(模式 ) 包 括 数值 型 .字符 型 .逻辑 型 (TRUE/FALSE)、 复 数 型 (虚数 ) 和 原生 型 ( 字 节 ) ,如 


图 4.1 所 示 。 


b) Matrix A 
(8) Vector ( ) Ma (c) Array 
y 
(d) Data frame 
Vectors 
n Arrays 
e zi Data frames 


Lists 


Columns can be different modes 


图 4.1 数据 类 型 结构 图 


1. 向 量 
向 量 Vector(1 * n.n *1) 是 用 于 存储 数值 型 .字符 型 或 逻辑 型 数据 的 一 维 数组 。 其 中 ， 


只 含 一 个 元 素 的 向 量 称 为 标量 。 根 据 向 量 中 元 素 类 型 的 不 同 ,可 将 向 量 分 为 数值 型 向 量 、 字 
符 型 向 量 等 。 


2. 和 矩阵 
和 矩阵 Matrix(n * m) 是 一 个 二 维 数组 ,其 中 的 每 个 元 素 是 相同 的 数据 类 型 ,比如 数值 型 、 
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字符 型 等 。 

3. 数组 

数组 Array(n * m * 1 类似 于 矩阵 ,与 矩阵 不 同 的 是 ,其 维度 可 以 大 于 2。 

4. 数据 框 

数据 框 Data frame: (n * m): R 中 最 常 处 理 的 数据 结构 ,其 最 大 的 特点 是 不 同 的 列 可 
以 包含 不 同 的 数据 类 型 。 当 数据 有 多 种 数据 类 型 时 ,使 用 数据 框 可 以 将 数据 集 放 入 一 个 
和 矩阵。 

5. 列表 

列表 (List) 是 一 些 对 象 的 有 序 集合 ,其 中 的 对 象 可 以 是 任何 的 数据 结构 类 型 ,比如 向 
量 \ 和 矩阵 数据 框 等 。 列 表 由 向 量 派生 而 来 ,是 R 中 最 复杂 的 一 种 数据 类 型 。 

6. AF 

因子 (Factor) 是 R 定义 的 一 种 特殊 的 数据 类 型 。 因 子 指 的 是 名 义 型 变量 或 有 序 型 变 
量 , 例 如 (类 型 1、 类 型 2、 类 型 3) 为 名 义 型 变量 ,而 ( 优 、 良 、 中 、 差 ) 是 有 序 型 变量 。 


4.2 数据 的 基本 操作 


本 章 主要 介绍 R 中 一 些 基本 的 数据 操作 ,包括 赋值 .创建 .运算 及 数据 的 导入 等 操作 。 
4.2.1 赋值 和 创建 


1. 赋值 操作 
R 语句 由 函数 和 赋值 构成 。R 使 用 二 一 ( 像 一 个 小 箭头 ) 表 示 赋 值 给 箭头 指向 的 变量 ， 
也 可 用 传统 的 三 作为 赋值 符号 。 例 如 下 面 语句 : 


>x<-10 
>x 

[1] 10 
>9->y 
>y 
[1] 9 
>a<- 10 ->b 
>a 

[1] 10 
>b 

[1] 10 


结果 输出 表示 为 向 量 形式 ,前 面 的 [1] 表 示 这 是 向 量 的 第 一 个 元 素 。 男 外 ,使 用 R 可 以 
反 转 赋值 方向 ,小 箭头 指向 的 方向 被 赋予 一 定 的 函数 值 。 当 然 ,R 允许 使 用 = 为 对 象 赋值 ， 
但 是 这 样 写 的 R 程序 并 不 多 ,因为 它 不 是 标准 语法 , 某 些 情况 下 用 等 号 赋值 会 出 现 问题 。 

避免 使 用 关键 字 作为 变量 名 ,如 c 过 一 10, 这 样 的 命名 方式 在 计算 中 极 易 报错 ,其 原因 
在 于 cO 〇 是 一 个 连接 函数 。 
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2. 数据 的 创建 
1) 向 量 的 建立 
函数 c() 可 用 来 创建 向 量 , 各 类 向 量 如 下 所 示 : 


>x<-c(1,2,3) 
>y<-c(" 国 "," 泰 "," 安 ") 
>z<-c(T,T,F) 


其 中 ,x 是 数值 型 向 量 ; y 是 字符 型 向 量 ; z 是 逻辑 型 向 量 。 
通过 在 方 括号 中 给 定 元 素 所 处 位 置 的 数值 ,可 以 访问 向 量 中 的 元 素 。 例 如 访问 向 量 x 
中 的 第 二 个 和 第 三 个 元 素 。 


> x[c(2, 3)] 
[1] 23 


Hf. p] ht rh AG 80 dš D DES AH E] A E NE R ORUE 554 09 0 32 58 990) ,同一 向 量 中 
不 能 混杂 不 同 模式 的 数据 。 下面 对 不 同 的 数据 类 型 进行 举例 。 

COD 数值 型 向 量 建立 。 

统计 分 析 中 最 常用 的 是 数值 型 的 向 量 ,可 以 使 用 以 下 4 种 函数 进行 数值 型 向 量 建立 。 

(D seq() 或 “:”( 若 向 量具 有 较为 简单 的 规律 ) 

seq(from = 1, to = 1, by 三 步 长 , length. out 三 序列 长 度 ) 


21:10 

[11 1 2 3 4 5» 6. 7 8 9-19 
>1:10-1 

[1]0123456789 

>1:(10-1) 


[1] 123456789 

> z<- seq(1,5,by=0.5) 

>z 

[1] 1.01.5 2.02.5 3.03.5 4.04.5 5.0 

> z<- seq(1,10,1ength = 11) 

>z 

[1p 1.0 1.9 2,8 3.7 4.6 5,5 6,4 7.3 8.2. 9.1 10.0 


© repC )( 若 向 量具 有 较 复 杂 的 规律 ) 
rep(x, times 一 序列 循环 次 数 ，length. out 二 序列 长 度 , each 二 每 个 元 素 出 现 次 数 ) 


»z«-rep(2:5,2) 

>z 

[1123452345 

»z«-rep(2:5,rep(2,4)) 

>z 

[1122334455 

> z<- rep(1:3, times = 4, each = 2) 

>z 
[11112233112233112233112233 
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O c( )( 若 向 量 没有 什么 规律 ) 
前 面 已 经 给 出 了 例子 ,在 此 不 再 袭 述 。 
(D scan( )( 通 过 键盘 逐个 输入 ) 


»z«-scan() 

1512,01.52.02:5.3.0 3.54,0.4.5.5,0 
10: 

Read 9 items 

>= 

[1] 1.01.5 2.0 2.5 3.03.54.04.55.0 
> z<- sequence(3:5) 

>z 

@a]J123123412345 

> z<- sequence(c(10,5)) 

>z 

[11] 123456789 1012 3 4 5 


(2) 字符 型 向 量 建立 。 
字符 型 向 量 也 是 经 常用 到 的 ,比如 图 表 的 标签 。 字 符 串 输入 时 可 以 使 用 单 引号 ('") ,也 
可 以 使 用 双 引 号 (""), 有 以 下 两 种 常用 函数 进行 字符 型 向 量 建立 。 


Oc) 

前 面 已 经 举 过 例子 ,这 里 就 不 再 举例 。 

Q) paste() 

paste (…，sep = " ", collapse = NULL) 


> labs <- paste(c("X",'Y'),1:10,sep="") 
> labs 
[1] "Xi" "y2" "x3" "ya" "X5" "ye" "x7" "yg" "X9" "y10" 


2) 矩阵 的 建立 
可 通过 函数 matrix 创建 矩阵 。 一 般 使 用 格式 为 : 


matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) 


其 中 ,data 包含 了 矩阵 的 元 素 ,nrow 和 ncol 用 以 指定 行 和 列 的 维 数 ,byrow BI] £ BJ] Hi 
阵 应 当 按 行 填充 (byrow 二 TRUE) 还 是 按 列 填充 (byrow = FALSE) ,默认 情况 下 按 列 填充 。 
dimnames 包含 了 可 选 的 ,以 字符 型 向 量 表示 的 行 名 和 列 名 。 例 如 : 


# 按 行 排列 建立 3x 3 的 矩阵 
>a<-matrix(1:9,3,3,T) 
>a 
L1] L21 [, 3] 
[n] r 2 3 
[2,] 4 5 6 
($1 7 & 9 
# 按 列 排列 建立 3x 3 的 矩阵 


大 数据 分 析 : RMR 


> b<-matrix(1:9,3,3,F) 
>b 
(,1] [,2] [,3] 

[1,] 1 4 7 
[2,1 2 5 8 
[3,] 3 6 9 
> cells«- c(9,0,4,6) 
> rnames <- c("R1","R2") 
> cnames « - c("C1", "C2") 
> mymatrix« - matrix(cells, 2,2,T,dimnames = list(rnames, cnames)) 
» mymatrix 

C1 C2 
R19 0 
R2 4 6 
> mymatrix<— matrix(cells,2,2,F,dimnames = list(rnames, cnames) ) 
> mymatrix 

C1 C2 
Rl 9 4 
R 0 6 


可 以 使 用 下 标 和 方 括 号 [ ] 的 方式 来 选择 和 提取 和 矩阵 中 的 行 、 列 元 素 。 例 如 ,XL i. JÆ 
指 提取 和 矩阵 X 中 第 i 行 的 所 有 元 素 ,X[,j Didi EBORE X 中 第 j 列 的 所 有 元 素 ,X[L i j] 
是 指 提取 和 矩阵 X 中 第 i 行 、 第 j 列 的 元 素 。 选 择 多 行 或 多 列 时 ,下 标 i 和 j 可 为 数值 型 向 量 。 


> x<-matrix(1:10,nrow = 2) 
>x 
[,1] [,2] [,3] [,4] 0,5] 
iL) £ 355 7 9 
[2,] 2 4 6 8 10 
-x[,21 
[1] 34 
> x[2, ] 
[1] 2 4 6 8 10 
» x[2,3] 
[1] 6 
> x[1,c(3,5)] 
[1159 


3) 数组 的 建立 
数组 可 通过 array 函数 创建 ,形式 如 下 : 


array ( vector, dimension, dimnames ) 


其 中 ,vector 包含 了 数组 中 的 数据 元 素 ,dimension 是 一 个 数值 型 向 量 , 给 出 了 各 个 维度 
下 标的 最 大 值 , dimnames 是 可 选 的 .各 维度 名 称 标签 的 列表 。 下 面 给 出 一 个 创建 三 维 
(2X3X4) 数 值 型 数组 的 示例 。 
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> diml«- c("A1","A2") 
> dim2 <— c("B1","B2","B3") 
> dm3«—c("C)*, "co", "ea", "ca") 
»z«-array(1:24,c(2,3, 4), dimnames = list(diml,dim2,dim3)) 
>s 
pp GL 
Bl B2 B3 


Al 19 21 23 
A2 20 22 24 


数组 是 矩阵 的 一 种 推广 ,在 编写 新 的 统计 方法 时 可 能 很 有 用 。 从 数组 中 选取 元 素 的 方 
式 与 矩阵 相同 ,例如 : 


> z[1,2,3] 
[1] 15 


4) 数据 框 的 建立 
数据 框 可 通过 函数 data. frame() 创 建 : 


data. frame (co11, co12, co13) 


其 中 , 列 向 量 coll. col2, col3,… 可 为 任何 类 型 (如 字符 型 SR (8079 o 2 HT), 89 — 9 f 
名 称 可 由 函数 names 指定 。 下 面 举例 说 明 。 
表 4.1 中 包含 了 不 同类 型 的 数据 ,通过 R 语言 创建 此 数据 框 。 


表 4.1 病人 信息 登记 表 


病人 编号 入 院 时 间 年 龄 糖尿 病 类 型 病情 
(PatientID) (AdmDate) (Age) (Diabetes) (Status) 
1 10/15/2009 25 Typel Poor 
2 11/01/2009 34 Type2 Improved 
3 10/21/2009 28 Typel Excellent 
4 10/28/2009 52 Typel Poor 
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> patientID«- c(1,2,3,4) 
> age«- c(25,34,28,52) 
> diabetes < — c("Typel", "Type2" , "Typel", "Type1") 
> status « - c("Poor" , "Improved", "Excellent", "Poor" ) 
> patientdata <- data. frame(patientID, age, diabetes, status) 
» patientdata 
patientID age diabetes status 


š 1 25 Typel Poor 
2 2 34 Type2 Improved 
3 3 28 Typel Excellent 
4 4 52 Typel Poor 
» sunmary(patientdata) 

patientID age diabetes status 
Min. :1.00 Min. :25.00 Typel:3 Excellent :1 
1stQu. :1.75 1st Qu.:27.25 Type2:1 Improved :1 
Median :2.50 Median:31.00 Poor :2 
Mean :2.50 Mean :34.75 
3rdQu. :3.25 3rd Qu.:38.50 
Max. 4.00 Max. :52.00 


选取 数据 框 中 元 素 的 方式 有 以 下 几 种 ,以 上 述 案例 为 例 。 


> patientdata[1:3] 
patientID age diabetes 


1 1 25  Typel 

2 2 34 Type2 

3 3 28  Typel 

4 4 52 Typel 

> patientdata[c("age", "status")] 
age status 

i :25 Poor 

2 34 Improved 

3 28 Excellent 


4 52 Poor 
» patientdata $ diabetes 
[1] Typel Type2 Typel Typel 
Levels: Typel Type2 


可 以 通过 以 下 代码 语句 查看 及 修改 数据 框 的 数据 (如 图 4.2 所 示 ) 。 


> data. entry(patientdata) 
> edit(patientdata) 
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文件 #8 sm 
patientID|age |diabetes|status | vars var6 
111 25 Typei Poor 
2 |2 34  |Type2 |Improved 
313 28 Typei Excellent 
a4 52 Typel Poor 
5 
6 
7 
8 
zi 一 
| 1o 
| ia 
| 12 
| 15 
| 14 
| 15 
16 
| | š 
18 
| 19 


图 4.2 病人 登记 信息 在 R 中 的 窗口 展示 


4.2.2 数据 的 运算 
RR 语言 可 以 作为 一 个 运行 计算 并 显示 结果 的 “大 计算 器 ”。base 包 里 面包 含 几乎 所 有 


科学 计算 的 函数 。 表 4.2 列 出 了 部 分 基础 运算 函数 。 


表 4.2 基础 运算 函数 


简单 数学 运算 常用 的 函数 逻辑 运算 

LE 加 法 abs 绝对 值 > KF 

= 减法 Sign 符号 函数 >= KF EF 
* 乘法 log 自然 对 数 < 小 于 

/ 除法 exp 指数 <= 小 于 等 于 
乘 方 sqrt 平方 根 == 等 于 
LR 矩阵 相 乘 sin 正弦 函数 & 与 

% % (mod) 取 余数 cos 余弦 函数 | 或 

%/% 整除 tan 正切 函数 ! 非 


下 面 给 出 了 一 些 简单 的 运算 操作 及 说 明 。 
1. 简单 数学 运算 


-1t1 
[1] 2 
>3% %2 
[1] 1 


说 明 : %% 是 整除 运算 。 
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2. 函数 运算 


> sign(3) 
[1] 1 

> sign( - 3) 
[1] =1 


说 明 : sign 函数 是 符号 运算 ,若是 正 数 ,返回 值 为 1; 车 为 0, 返回 值 为 0; 若 为 负数 , 返 
回 值 为 一 1 。 
3. 逻辑 运算 


>3>=2 
[1] TRUE 
>2>3 
[1] FALSE 
>30 6 
[1] TRUE 


说 明 : 逻辑 运算 的 返回 值 是 TRUE 或 者 FALSE, 经 常用 于 函数 体 里 面 的 计 语 句 判断 。 
4.2.3 数据 的 导入 


对 于 不 同类 型 的 数据 ,R 提供 了 多 种 导入 方式 ,包括 键盘 直接 输入 ,对 文本 数据 、Excel、 
SAS 等 类 型 数据 的 导入 及 对 数据 库 的 访问 等 。 

1. 键盘 输入 

R 提供 了 edit 函数 实现 通过 键盘 进行 数据 的 输入 ,调用 该 函数 会 出 现 一 个 数据 编辑 器 ， 
在 编辑 器 中 可 以 通过 键盘 手动 输入 数据 。 键 盘 输 入 数据 分 为 以 下 两 个 步 又 : 

CD 建立 一 个 矩阵 或 数据 框 ,设置 变量 名 及 变量 模式 。 

(2) 调用 数据 编辑 器 ,输入 并 保存 数据 。 


* 创建 数据 框 mydata 

> mydata <- data. frame(a = numeric(0),b = character(0),d = numeric(0)) 

# 使 用 edit() 调 用 文本 编辑 器 并 输入 相应 数据 , 单 击 变量 名 可 以 对 变量 的 类 型 进行 更 改 ,结果 如 
图 4.3 所 示 

mydata < 一 edit(mydata) 

# 显示 数据 mydata 

> mydata 


可 以 再 次 使 用 edit() 调 用 数据 编辑 器 对 数据 进行 编辑 修改 。 
2. 文本 数据 的 导入 
对 于 文本 数据 使 用 read. table() 导 入 ,有 两 种 操作 方法 ,一 种 是 直接 利用 导入 命令 , 函 
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图 4.3 数据 编辑 器 示意 图 


数 语法 为 : 
read. table (file, header = T/F, sep = "delimiter", row.names = "name") 


其 中 ,file 表示 要 导入 的 文本 文件 ,该 文本 文件 是 带 有 分 隔 符 的 ; header 表示 是 否 读 取 
文本 文件 第 一 行 作为 变量 名 ,车 为 TRUE, 则 文本 的 第 一 行 作为 变量 名 ; sep 表示 分 隔 符 类 
型 ,默认 值 为 sep="" ,表示 分 隔 符 可 为 一 个 或 多 个 空格 、 制 表 符 、 换 行 符 或 回 车 符 ; row. 
names 表示 行 标识 符 的 变量 ,是 一 个 可 选 参数 。 例 如 : 


>X<- read. table("D:\\Users\\rtest. csv", header = T, sep = "/t", row. names = "r") 


该 命令 表示 从 Users 文件 夹 中 读 取 了 rtest 文件 保存 为 X 数据 框 ,并 且 读 取 了 第 一 行 
作为 变量 名 ,该 文件 是 以 制 表 符 为 分 隔 符 的 , 行 标识 符 为 ro 

另外 一 种 方法 是 利用 剪贴 板 。 首 先 选 中 并 复制 将 要 导入 的 数据 ,然后 使 用 read. table 
(“clipboard”) 命 令 进行 数据 的 导入 。 

3. Excel 数据 的 导入 

R 读 取 Excel 数据 的 方法 很 多 ,一 种 简单 的 方法 是 先 将 Excel 数据 转换 成 文本 文件 
C. csv) ,再 按照 上 节 读 取 文 本 文件 的 方法 读 取 。 此 外 ,还 可 以 通过 及 语言 包 进行 读 取 。 下 面 
介绍 Excell. xlsx) 文 件 的 读 取 方 式 , 代 码 如 下 : 


> install. packages( "xlsx") # 安 装 xlsx 包 

> library(xlsx) # 加 载 xlsx 包 

X<- read.xlsx("D:\\Users\\rtest.xlsx",1,header = T) i ill JH M% read. xlsx() 实 现 Excel 
数据 的 导入 
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至 此 ,完成 了 Excel 数据 的 读 取 。 其 中 1 表示 读 取 Excel 表 中 的 第 一 个 Sheet, 

4. 其 他 类 型 数据 的 导入 

对 于 SPSS、SAS 及 Stata 数据 的 导入 ,R 提供 了 相应 的 包 。 例 如 ,foreign 包 中 的 函数 
read. spss() „read. ssd() 及 read. dta() 可 以 分 别 读 取 SPSS 数据 ,SAS 数据 和 Stata 数据 ; 还 
可 以 分 别 调用 Hmisc 包 中 的 函数 spss. get() 和 sas. get() 对 SPSS 及 SAS 类 型 的 数据 进行 
读 取 。 在 调用 函数 前 需 安装 和 加 载 相应 的 包 。 而 对 于 SAS 数据 ,可 以 先 将 其 另存 为 文本 文 
件 ( 以 逗号 为 分 隔 符 ) ,然后 使 用 文本 文件 的 读 取 方 法 进行 读 取 。 

例如 ,应 用 foreign 包 中 的 函数 read. spss() 读 取 SPSS 文 件 , 代 码 如 下 : 


> install. packages( "foreign") # "ZU foreign 包 

> library(foreign) # 加载 foreign 包 

> read. spss('D:\\Users\\ 居 民 储蓄 调查 数据 . sav") # WJH read. spss() 读 取 spss 文件 
5. 数据 库 的 访问 


R 提供 了 很 多 关系 型 数据 库 管 理 系 统 的 接口 ,比如 MySQL, Oracle, Microsoft SQL 
Server 等 。R 访问 数据 库 , 克 服 了 R 对 大 数据 存储 的 限制 ,充分 发 挥 了 R 的 数据 分 析 功 能 ， 
大 大 提高 了 R 对 大 数据 分 析 的 性 能 。 

在 R 中 通过 RODBC 包 进 行 数据 库 的 访问 。 该 方法 使 得 R 能 够 访问 任意 具有 ODBC 
驱动 的 数据 库 。 首 先 需要 安装 RODBC 包 , 表 4.3 列 出 了 该 包 中 一 些 基 本 的 函数 。 

表 4.3 RODBC 包 中 的 函数 


PA 数 函数 描述 
odbcConnect(dsn,uid=" ",pwd=" ") 建立 与 ODBC 数据 库 的 连接 
sqlFetch(channel, sqltable) 将 ODBC 数据 库 中 的 指定 表 读 取 到 数据 框 中 
sqlQuery(channel,query) 向 ODBC 数据 库 提交 查询 并 且 返 回 相应 结果 
sqlSave (channel, mydf, tablename = sqtable, | 将 数据 框 写 入 ODBC 数据 库 相 应 的 表 中 , 若 append 
append= FALSE) 二 TRUE 则 为 数据 的 更 新 
sqlDrop(channel, sqtable) 将 ODBC 数据 库 中 指定 表 删 除 
close(channel) 将 连接 关闭 


RODBC 包 提 供 R 读 取 ,编辑 数据 库 中 数据 的 功能 ,实现 R 与 数据 库 间 的 相互 通信 。 

4.3 数据 的 管理 

R 有 类 似 于 SQL 中 的 增删 改 查 (insert , delete, update, select) 等 对 数据 库 操 作 , 下 面 进 
行 具体 说 明 。 

4.3.1 数据 排序 


有 些 情 况 下 ,查看 排序 后 的 数据 集 可 以 获得 相当 多 有 用 的 信息 。 在 R 中 可 以 使 用 
order 函数 对 数据 框 进行 排序 ,默认 为 升序 。 在 排序 变量 的 前 边 加 一 个 减 号 即 可 得 到 降序 
的 排序 结果 。 下 面 将 利用 上 一 节 输 入 的 数据 框 patientdata 进行 举例 。 
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# 创 建 一 个 新 的 数据 集 ,其 中 各 行 按照 病人 的 年 龄 升序 排序 
> newdata <— patientdata[order(patientdata $ age), ] 
> newdata 

patientID age diabetes status 


1 1 25 Typel Poor 
3 3 28 Typel Excellent 
2 2 34 Type2 Improved 
4 4 52 Typel Poor 


# 各 行 先 按照 病人 的 病情 升序 排序 ,同等 病情 的 再 按照 年 龄 升序 排序 
> attach(patientdata) 
> newdata2 <— patientdata[order(status, age), ] 
> newdata2 
patientID age diabetes status 


3 3 28 Typel Excellent 
2 2 34 Type2 Improved 
1 1 25 Typel Poor 

4 4 52 Typel Poor 
> detach( patientdata) 


4.3.2 数据 集 的 合并 


数据 集 的 合并 (Insert) 在 实际 运用 中 十 分 常见 ,比如 进行 问卷 调查 ,后 期 补 录 了 一 组 变 
量 , 需 要 与 前 期 的 数据 进行 列 合 并 ; 几 个 调研 员 调 查 的 样本 要 进行 汇总 合并 等 。 本 节 将 分 
别 展 示 向 数据 框 中 添加 列 (变量 ) 和 行 (样本 ) 的 方法 。 

1. 添加 列 

要 横向 合并 两 个 数据 框 (数据 集 ) 使 用 merge 函数 。 在 多 数 情况 下 ,两 个 数据 框 是 通过 
一 个 或 多 个 共有 变量 进行 联结 的 ( 即 一 种 内 联结 ,Innerjoin)。 例 如 : 


total < 一 merge(dataframeA, dataframeB, by- "ID") + f dataframeA 和 dataframeB 按照 ID 进行 
合并 
A 


类 似 地 : 

total <- merge(dataframeA, dataframeB, by=c("ID","Country")) # 将 两 个 数据 框 按照 ID 和 

Country 进行 合并 

类 似 地 ,横向 联结 通常 用 于 向 数据 框 中 添加 变量 。 若 要 直接 横向 合并 两 个 矩阵 或 数据 
HE ,并且 不 需要 指定 一 个 公共 索引 , 则 可 以 直接 使 用 cbind 函数 。 

total <- cbind(A, B) 

这 个 函数 横向 合并 对 象 A 和 对 象 B。 需 要 注意 的 是 ,使 用 cbind 函数 合并 对 象 , 其 中 每 
个 对 象 必须 拥有 相同 的 行 数 , 且 要 以 相同 顺序 排序 。 

2. 添加 行 

要 纵向 合并 两 个 数据 框 (数据 集 ) 使 用 rbind 函数 。 


total <- rbind(dataframeA, dataframeB) 
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两 个 数据 框 必须 拥有 相同 的 变量 ,但 它们 的 顺序 不 必 一 定 相 同 。 如 果 dataframeA 中 拥 
有 dataframeB 中 没有 的 变量 ,在 合并 它们 之 前 需 做 以 下 某 种 处 理 : 

(1) 删除 dataframeA 中 的 多 余 变 量 。 

(2) 在 dataframeB 中 创建 追加 的 变量 并 将 其 值 设 为 NA( 缺 失 )。 

纵向 联结 通常 用 于 向 数据 框 中 添加 样本 。 


4.3.3 剔除 变量 


Sal BRE HE Delete) 的 原因 有 很 多 ,比如 某 个 变量 中 有 若干 缺失 值 ,在 进行 分 析 之 前 就 需 
要 将 其 删除 。 下 面 是 一 些 剔 除 变量 的 方法 ,使 用 之 前 创建 的 数据 集 进行 举例 。 


> newdata3 <— patientdata[, 一 2] 
> newdata3 

patientID diabetes status 
š 1 Typel Poor 
2 2 Type2 Improved 
3 3 Typel Excellent 
4 4 Typel Poor 


上 面 的 例子 剔除 了 数据 集 patientdata 中 的 变量 age。 其 中 , 方 框 [,-2] 表 示 提 取 除 去 第 
二 列 的 所 有 行 。 同 样 , 可 以 用 下 面 的 一 种 方法 剔除 变量 age, 


> newdata4 <— patientdata 
> newdata4 $ age <- NULL 
» newdata4 
patientID diabetes status 


š 1 Typel Poor 
2 2 Type2 Improved 
3 3 Typel Excellent 

4 4 Typel Poor 


语句 的 含义 是 将 age 列 设 为 未 定义 (NULL)。 需 要 注意 的 是 ,NULL 与 NA CKon Bit 
失 ) 是 不 同 的 。 

丢弃 变量 是 保留 变量 的 逆向 操作 ,选择 哪 一 种 方式 进行 变量 筛选 依赖 于 两 种 方式 的 编 
码 难 易 程度 。 比 如 ,如 果 需 要 剔除 绝 大 多 数 的 变量 ,那么 选择 保留 需要 留 下 的 变量 ,操作 起 
来 会 更 简单 ,反之 亦 然 。 


4.3.4 数据 集 提 取 


R 拥有 强大 的 索引 特性 ,可 以 用 于 访问 对 象 中 的 元 素 ,也 可 利用 这 些 特性 对 变量 或 观测 
进行 选 人 和 排除 。 

1. 提取 变量 ( 列 ) 

从 一 个 大 数据 集中 选择 有 限 数量 的 变量 ( 列 ) 来 创建 一 个 新 的 数据 集 , 在 实践 应 用 中 广 
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泛 存 在 。 在 前 面 的 小 节 中 提 到 ,数据 框 中 的 元 素 是 通过 以 下 代码 提取 的 ,提取 变量 的 方法 就 
是 选择 被 提取 变量 的 列 号 ,方法 同 前 文 ,此 处 不 再 蒙 述 。 


dataframe(row indices, column indices) 


2. 提取 样本 ( 行 ) 

提取 或 剔除 样本 ( 行 ) 通 常 是 数据 准备 和 数据 分 析 的 一 个 关键 方面 。 比 如 ,在 进行 统计 
调查 时 通常 需要 甄别 变量 ,进行 对 比分 析 ; 在 一 些 设置 了 实验 组 和 对 照 组 实验 研究 中 ,需要 
提取 一 类 样本 进行 分 析 等 。 和 提取 变量 一 样 , 可 以 通过 选择 行 号 来 提取 样本 ,也 可 以 选择 满 
足 所 需 条 件 的 样本 。 例 如 : 


> newdata5 <- patientdata[which(patientdata $ status == "Poor" & patientdata $ age > 30), ] 
> newdata5 
patientID age diabetes status 
4 4 52 Typel Poor 
> attach(patientdata) 
> newdata6 < - patientdata[ which(status == "Poor" & age>30), ] 
> detach(patientdata) 
> newdata6 
patientID age diabetes status 
4 4 52 Typel Poor 


在 上 述 示例 中 提取 了 所 有 30 岁 以 上 并 且 状 态 为 Poor 的 病人 样本 。 
如 果 使 用 了 attach 函数 , 则 可 以 直接 通过 变量 名 称 进行 调用 ,而 不 需要 在 变量 名 前 加 
上 数据 框 名 称 。 调 用 数据 集结 束 后 ,使 用 detach 函数 进行 释放 。 


4.3.5 subset Ej Zt 


前 面 几 节 中 的 示例 描述 了 逻辑 型 向 量 和 比较 运算 符 在 R 中 的 解释 方式 ,理解 这 些 例 子 
的 工作 原理 将 有 助 于 对 R 代码 的 解读 。 而 使 用 subset 函数 可 以 使 选择 变量 的 操作 变 得 更 
为 简单 ,例如 : 


> newdata7 <— subset(patientdata, age >= 30, select = 2:4) 
> newdata7 
age diabetes status 
2 34 Type2 Improved 
4 52 Typel Poor 
> newdata8 <— subset(patientdata, status== "Poor",select = 2:4) 
> newdata8 
age diabetes status 
1 25 Typel Poor 
4 52 Typel Poor 


在 第 一 个 示例 中 选择 了 所 有 age 值 大 于 等 于 30 的 行 ,保留 了 变量 2—4 90, 在 第 二 个 
示例 中 选择 了 所 有 状态 为 Poor 的 病人 ,并 保留 了 变量 2 一 4 列 。 
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4.4 常用 函数 


在 使 用 R 软件 进行 数据 分 析 处 理 时 ,会 经 常 使 用 一 些 函 数 命令 来 查看 数据 的 特征 和 基 


本 结构 ,这 将 有 助 于 避免 数据 处 理 中 的 错误 。 一 些 常 用 的 函数 如 表 4.4 所 示 。 


表 4.4 常用 函数 

PR 数 功 能 
length() 显示 对 象 元 素 的 个 数 
dimO 显示 对 象 的 维度 
str() 显示 对 象 的 结构 
class() 显示 对 象 的 类 
mode() 显示 对 象 的 模式 
names() 显示 对 象 各 成 分 的 名 称 
c( 对 象 a, 对 象 b) 连接 a b 两 个 对 象 
cbind( 对 象 a, 对 象 b) 按 列 合并 a.b 两 个 对 象 
rbind( 对 象 a, 对 象 b) 按 行 合并 a b 两 个 对 象 
head 列 出 对 象 前 6 个 样本 
tail() 列 出 对 象 后 6 个 样本 
IsO 显示 当前 对 象 列表 
rm() 删除 对 象 
fixO 编辑 对 象 


mode() 和 length() 是 类 型 和 长 度 属性 函数 ,使 用 率 比较 高 。 


> mode(c(1,3,5)) 
[1] "numeric" 
> mode(c(1,3,5)>5) 


[1] "logical" 
>a<- 1:10 
> length(a) 
[1] 10 
> length(a) <- 5# 缩 短 长 度 ,将 得 到 子 集 
>a 
[1]12345 
> A <- matrix(seq(1:12),ncol=3) 
> dim(A) 
(1143 
>A 
(,1] [,2] [,3] 
[1,] 1 5 9 
[2,] 2 6 10 
13, ] 3 7 31 
[4,1 4 8 12 


对 和 矩阵、 数据 框 \ 数 组 的 长 度 查 询 需 要 使 用 dim O ,其 返回 值 的 第 一 个 元 素 代表 行 数 ,第 


二 个 元 素 代表 列 数 。 
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R 提供 了 丰富 的 可 视 化 函数 ,绘图 功能 强大 。 本 章 介绍 R 的 一 些 基本 绘图 技术 ,首先 
介绍 基本 的 绘图 参数 ,包括 符号 .颜色 .标题 .尺寸 及 图 形 的 组 合 等 ; 然后 描述 常用 的 绘图 函 
数 ,如 条 形 图 、 直 方 图 、 核 密度 图 等 。 


5.1 绘图 参数 


绘图 参数 (Graphical Parameters) 提供 了 丰富 的 绘图 选项 。R 的 常用 绘图 参数 包括 字 
体 .颜色 .坐标 轴 、 标 题 等 ,可 以 通过 以 下 两 种 方式 进行 设 定 和 修改 。 

CD 在 高 级 绘图 函数 (如 hist/boxplot/plot 等 ) 中 直接 指定 ,进行 临时 性 参数 设置 ， 
例如 : 


> hist(mtcars $ mpg, col. lab= "red") 


(2) 通过 par 函数 进行 全 局 性 参数 设置 ,可 以 通过 修改 图 形 参 数 的 选项 自 定义 图 形 的 
某 些 特征 。 该 方式 设 定 的 参数 值 ,如 果 不 再 修改 .在 结束 会 话 前 都 是 有 效 的 。 其 调用 命令 格 
式 为 : 


par(optionname = value, optionname = name, … ) 


> par() # 查 看 当前 绘图 参数 设置 
>opar <- par() # 保 存 当 前 设置 

> par(col.lab- "red") # 设 置 坐标 轴 标签 为 红色 
>hist(mtcars$mpg) ”# 利 用 新 的 参数 绘图 

> par(opar) # 恢 复 绘图 参数 的 原始 设置 


下 面 通过 一 个 具体 的 例子 进行 演示 。 表 5. 1 给 出 了 一 个 假设 出 来 的 数据 集 ,描述 的 是 
空调 价格 对 需求 的 影响 情况 。 
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表 5.1 某 品牌 空调 价格 需求 表 


价格 pF) 需求 量 q( 万 台 ) 
1 70 
2 69 
3 63 
4 60 
5 58 
先 将 数据 导入 R 中 ,代码 如 下 : 


>p<-1:5 
»q«-c(70,69,63,60,58) 


现 使 用 以 下 代码 创建 一 幅 描 述 该 品牌 空调 价格 及 其 需求 量 的 响应 关系 图 ,如 图 5. 1 
所 示 。 


> plot(p,q, "b") 


l 2 3 4 5 
p 


图 5.1 空调 价格 及 其 需求 量 响应 关系 图 
通过 使 用 以 下 代码 对 参数 进行 修改 ,可 以 得 到 图 5. 2 所 示 的 效果 。 


> plot(p,q,"b", lty = 3, pch= 17) 


plot 函数 的 参数 表示 将 线条 类 型 修改 为 虚线 (lty 王 3), 并 将 点 符号 改 为 实心 三 角 
(pch 王 17)。 也 可 以 使 用 par() 进 行 永久 修改 。 


> opar «- par() # 保 存 当 前 设置 

> par(1ty = 3,pch = 17) # 设 定 默 认 的 线条 为 虚线 ,符号 为 实心 三 角形 
> plot(p,q, "b") 

> par(opar) # 恢 复 绘图 参数 的 原始 设置 


为 了 更 详尽 地 展现 R 语言 的 强大 绘图 能 力 , 下 面 将 分 章节 介绍 其 绘图 参数 。 


S: | 


图 5.2 空调 价格 及 其 需求 量 关 系 添加 效果 图 


符号 ` 线 条 与 颜色 


R 语言 提供 了 丰富 的 绘图 参数 ,可 以 使 用 这 些 绘图 参数 设置 符号 .线条 及 颜色 类 型 。 常 
用 的 绘图 参数 如 图 5. 3 和 表 5.2 MRL. 


plot symbols: pch= 


line types: lty= 
0005 @10 WI5 ° 20 Ç25 6 š 


Ol 6 XII @16 021 


A2 m7 BI2 417022 
十 3 米 8 B13 18023 2 


X499 814 €19 A24 1 


(a) plot 函 数 点 的 参数 设置 图 
图 5.3 plot 函数 点 和 线 的 参数 设置 图 
R52 点 符号 ,线条 与 颜色 参数 表 


(b) plot 函 数 线 的 参数 设置 图 


参 功 能 
pch 指定 绘制 点 时 使 用 的 符号 ,R 中 共有 26 种 点 符号 供 选择 
指定 线条 类 型 ，R 中 共有 7 种 线 型 供 选 择 。0 一 blank( 空 白 ) .1 一 solid( 实 线 ) (default) .2 一 
lty dashed( 虚 线 ) ,3— dotted (HR) 4 一 dotdash( 点 和 虚线 ) ,5 = longdash (K H ££) ,6 = twodash 
(长 短 虚 线 ) 
指定 线条 宽度 。lwd 是 以 默认 值 的 相对 大 小 来 表示 的 (默认 值 为 1) 。 例 如 ,lwd 一 2 将 生成 


一 条 两 倍 于 默认 宽度 的 线条 


指定 符号 的 大 小 (默认 值 为 1) 。 例 如 ,cex 一 2 将 生成 两 倍 于 默认 值 的 符号 。 
cex. axis: 坐标 轴 刻 度 标记 的 缩放 比例 。 

cex. lab; 坐标 轴 标 题 的 缩放 比例 。 

cex. main: 指定 主 标题 的 缩放 比例 。 

cex. sub: 子 标题 的 缩放 比例 


(D Robert L Kabacoff. R 语 言 实战 [MJ. 高 涛 , 肖 楠 ,陈钢 , 译 . 北京 : 人 民 邮 电 出 版 社 ,2013. 
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续 表 
E Jj 能 
用 于 指定 绘图 使 用 的 字体 样式 。1 一 常规 ,2 一 粗 体 ,3 一 斜体 ,4 一 粗 斜 体 。 
font. axis: 坐标 轴 刻 度 文 字 的 字体 样式 。 
font. lab: 坐标 轴 标签 (名 称 ) 的 字体 样式 。 
font font. main: 标题 的 字体 样式 。 


font. sub: 副标题 的 字体 样式 。 
ps: 字体 磅 值 (1 磅 约 为 1/72 英寸 )。 文 本 的 最 终 大 小 为 ps * cex。 
family: 绘制 文本 时 使 用 的 字体 族 。 标 准 的 取 值 为 serif( 衬 线 ) ,sans( 无 衬 线 ) 和 mono( 等 宽 ) 


col 


指定 绘图 颜色 。 

col. axis: 坐标 轴 刻 度 标 记 的 颜色 。 

col. lab: 坐标 轴 标 题 的 颜色 。 

col. main; 主 标题 的 颜色 。 

col. sub: 子 标题 的 颜色 。 

fg: 设置 前 景色 。 

bg: 设置 背景 色 。 

在 R 中 可 以 通过 颜色 下 标 、 颜 色 名 称 、 十 六 进 制 的 颜色 值 .RGB 值 或 HSV 值 来 指定 颜色 。 
举例 来 说 ,col=1、col="white" ,col— " # FFFFFF",col = rgb ( 1,1,1 )#l col = hsv ( 0,0, 
1 ) 都 表示 白色 的 等 价 方式 。 函 数 rgb 可 基于 红 一 绿 一 蓝 三 色 值 生成 颜色 ,而 函数 hsv 则 基 
于 色相 一 饱和 度 一 亮度 值 来 生成 颜色 。 


以 英寸 表示 的 图 形 尺 寸 ( 宽 和 高 ) 


边界 大 小 ,顺序 为 “下 、 左 、 上 , 右 ”, 单 位 为 英寸 


边界 大 小 ,顺序 为 “下 、 左 、 上 、 右 ”, 单 位 为 英 分 。 默 认 值 为 ce(5, 4, 4, 2) + 0.1 


下 面 将 通过 具体 的 例子 展示 参数 的 设置 对 图 形 的 影响 效果 ,具体 如 下 : 


»u«-1:25 
> plot(u, pch = u, col = u, cex = 2) 


图 5.4 s f R ift rift] 25 种 点 符号 及 8 种 基本 色 。plot 绘制 的 图 像 ,x 轴 是 序号 ,y HH 
是 u 的 值 ,pch=u 表示 点 符号 设 定 为 1 一 25 号 ,col=u 表示 颜色 设 定 为 1 一 25, 因 为 人 中 用 
数字 代表 的 颜色 有 8 种 ,所 以 自动 进行 循环 。 
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>matplot(matrix(1:60,10,6),lty=1:6,1lwd=2,type= '1') 


图 5.5 展示 了 R 语言 的 6 种 线条 类 型 。matplot 绘制 矩阵 的 图 像 ,matrix(1:60,10,6) 
表示 一 个 10 fT 6 列 元 素 为 1 一 60 的 矩阵 ,x 轴 是 矩阵 行 号 ,y 轴 是 元 素 的 值 ,每 条 线 是 每 一 
列 的 元 素 色 勒 出 来 的 。lty 二 1:6 表示 线条 类 型 设 定 为 1 一 6 t ,1lwd= 2 表示 线条 宽度 设 定 
为 默认 值 的 2 信 ,type 二 1' 表 示 画 的 为 实 线 。 
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图 5.5 plot 线 参数 变化 图 


关于 颜色 的 设 定 ,colors() 可 以 返回 所 有 可 用 颜色 的 名 称 。R 中 也 有 多 种 用 于 创建 连续 
型 颜色 向 量 的 函数 ,包括 rainbow() „heat. colors() „terrain. colors() „topo. colors() 及 cm. 
colors() ,具体 请 参考 这 些 函 数 的 帮助 文件 。 

例如 ,rainbow(10) 可 以 生成 10 种 连续 的 “彩虹 型 "颜色 。 多 阶 灰 度 色 可 使 用 gray() 生 
成 ,这 时 要 通过 一 个 元 素 值 为 0 和 1 之 间 的 向 量 来 指定 各 颜色 的 灰 度 。gray(0:10/10) 将 生 
成 10 阶 灰 度 色 。 颜 色 参 数 设置 对 比 见 图 5.6. 


>n<-10 

> mycolors <- rainbow(n) # 把 n 种 彩虹 色 赋 值 给 mycolors 

> pie(rep(1,n),col- mycolors) + ii n3R4+ KAN HFA, MERE H mycolors 
> mygrays < - gray(0:n/n) # 把 n 种 灰 度 赋 值 给 mygrays 

> pie(rep(1,n),col= mygrays) + Mi n3R4 KANGA, MAREN mygrays 
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5.6 颜色 参数 设置 对 比 


5.1.2 标题 .坐标 轴 与 图 例 


在 图 形 上 可 以 添加 标题 (main) 、 副 标题 Csub) .坐标 轴 标 签 Cxlab ylab) 并 指定 坐标 轴 范 
围 (xlim ylim) 。 表 5.3 列 出 了 一 些 常用 的 标签 说 明 。 
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表 5.3 标签 说 明 表 
参 数 功 能 
标题 title(main= ,sub= ,xlab= ,ylab=) 

main 主 标题 

sub 副标题 

xlab x 轴 标 签 

ylab y 轴 标签 

坐标 轴 axis(side,at= ,labels= ,lty= ,col= ,las= ,tck= , ++) 

side 坐标 轴 绘制 位 置 (1:; 下 ; 2: 左 ; 3: E; 4: 4D 

at 需要 绘制 刻度 线 的 位 置 (x/y) 
labels 刻度 线 旁 边 的 文字 标签 

lty 坐标 轴线 条 类 型 

col 线条 和 刻度 线 的 颜色 

las 0: 标签 平行 于 坐标 轴 ; 2: 标签 垂直 于 坐标 轴 

tck 刻度 线 的 长 度 ( 默 认 值 为 一 0. 01) 


图 例 legend(location, title, legend) 
有 许多 方式 可 以 指定 图 例 的 位 置 ,可 以 直接 给 定 图 例 左 上 角 的 xy 坐标 ,也 可 以 执行 
location locator(1), 然 后 通过 鼠标 单 击 给 出 图 例 的 位 置 ,还 可 以 使 用 关键 字 bottom, 
bottomleft.left.topleft.top.topright.right.bottomright 或 center 放置 图 例 
title 图 例 标题 的 字符 串 (可 选 ) 
legend 图 例 标签 组 成 的 字符 型 向 量 


继续 之 前 空调 价格 对 需求 影响 情况 的 例子 ,使 用 高 级 绘图 函数 直接 加 入 参数 ,代码 和 图 


>p<-1:5 

> q<-c(70,69,63,60,58) 

> plot(p,q,"b",col = 'blue', 
lty = 2, pch= 2, lwd=2, 
main = " 某 品牌 空调 价格 需求 曲线 "， 
sub = "假设 的 数据 "， 
xlab = "ffi", ylab = "需求 量 "， 
xlim= c(1,5), ylim= c(58,70) 
) 


图 5.7 加 上 了 标题 .坐标 标签 ,使 得 图 片 所 表示 的 含义 和 代表 的 变量 一 目 了 然 。 

也 可 以 通过 title() .axis() „legend O ZIRU EERE ,但 是 某 些 高 级 绘图 函数 已 经 包 
含 了 默认 的 设 定 ,需要 通过 以 下 办 法 先进 行 消 除 。 其 中 ,针对 标题 和 标签 ,可 以 通过 在 
plotO 〇 语句 或 单独 的 par() 语 句 中 添加 ann= FALSE 来 移 除 它们 ; 对 于 自动 生成 的 坐标 轴 ， 
axes= FALSE 将 禁用 全 部 坐标 轴 ,参数 xaxt="n" Al yaxt= "n" 将 分 别 禁用 x 轴 或 y 轴 (会 
留 下 框架 线 , 只 是 去 除了 刻度 ) ,利用 之 前 的 例子 进行 说 明 。 图 5. 8 是 修改 参数 后 的 空调 价 
格 需 求 曲 线 图 。 
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图 5.7 空调 价格 需求 曲线 


>p<-1:5 

»q«-c(70,69,63,60,58) 

> plot(p, q, "b", col = 'blue',lty- 2, pch= 2, lud = 2, ann = F, axes = F) 
> title(main = " 某 品牌 空调 价格 需求 曲线 ",col.main = 'red', 


十 sub = "假设 的 数据 ",col. sub= 'blue', 
十 xlab = "价格 ", ylab= "Rok HE", 
+ ) 


> axis(1,at = p, labels = p, col. axis = 'red', las = 1) 
> axis(2,at = q, labels = q, col. axis = 'red', las = 2) 
> legend("topright", inset = 0.05, title= "图 例 "， 
"价格 需求 线 ",col = 'blue', lty = 2, pch = 2, lwd=2 

) 


某 品 牌 空 调价 格 需求 曲线 
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—— 
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价格 
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图 5.8 修改 参数 后 的 空调 价格 需求 曲线 图 


5.1.3 文本 属性 


运用 图 形 参数 还 可 以 设置 字体 、 字 号 等 的 类 型 。 表 5.4 和 表 5.5 列 出 了 一 些 常 用 的 设 
置 文本 属性 的 参数 。 
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表 5.4 设置 文本 大 小 参数 表 


5 HX 参数 描述 
表示 相对 于 默认 大 小 缩放 的 倍数 。 默 认 大 小 的 值 为 1; 值 1. 5 为 默认 值 1 的 1.5 售 ， 
= 即 放大 为 默认 值 的 1.5 信 ; 而 值 0. 5 则 表示 缩小 为 默认 值 1 的 0. 5 信 , 其 他 数值 类 似 
cex. axis 类 似 cex, 表 示 坐 标 轴 刻 度 文 字 缩放 的 倍数 
cex. lab 坐标 轴 标签 缩放 的 倍数 
cex. main 标题 缩放 的 倍数 
cex. sub 副标题 缩放 的 倍数 
表 5.5 设置 字体 、 字 号 及 字样 的 参数 表 
参 数 参数 描述 
feat 设置 图 形 的 字体 样式 ,为 一 整数 值 。1 表示 常规 ; 2 表示 粗 体 ; 3 表示 斜体 ; 4 表示 粗 
斜体 ; 5 表示 符号 字体 
font. axis 坐标 轴 刻 度 文字 的 字体 样式 
font. lab 坐标 轴 标签 的 字体 样式 
font. main 标题 的 字体 样式 
font. sub 副标题 的 字体 样式 
ps 字体 的 磅 值 
family 对 文本 进行 绘制 时 的 字体 族 ,标准 的 取 值 有 三 种 : serif( 衬 底 ) sans OE JO , mono 


(等 宽 ) 


例如 ,如 果 在 绘制 图 5.7 所 示 的 空调 价格 需求 曲线 图 的 R 代码 前 加 上 如 下 语句 : 


> par(font. lab = 3, cex. lab = 0.5, font. main = 4, cex. nain = 1.5) 


那么 所 绘制 图 形 的 坐标 轴 标 签 的 大 小 为 默认 文本 大 小 的 0. 5 倍 ,字体 为 斜体 ; 标题 的 
大 小 为 默认 文本 大 小 的 1.5 倍 ,字体 为 粗 斜 体 。 效 果 如 图 5.9 所 示 。 
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图 5.9 空调 价格 需求 曲线 图 


5.1.4 图 形 的 组 合 


在 R 中 可 以 使 用 par() 或 layout() 将 多 幅 图 形 组 合 为 一 幅 总 括 图 形 ,下 面 分 别 举 例 说 明 。 

1. par() 

在 par() 中 ,图形 参数 mfrow 二 cl(a,b) 可 以 创建 按 行 填 充 的 , 行 数 为 a、 列 数 为 b 的 图 形 
矩阵; 而 图 形 参 数 nfcol 二 c(a,b) 生 成 的 是 按 列 填充 矩阵 。 利 用 数据 集 mtcars 进行 绘图 ,将 
创建 4 幅 图 形 并 将 其 排 布 在 两 行 两 列 中 ,如 图 5. 10 所 示 的 图 形 演示 。 


> par(opar) 
> detach(mtcars) 


> attach(mtcars) + 加 载 ntcars 数据 集 
> opar <- par() # 保 存 当前 设置 
> par(mfrow = c(2,2)) # 设 置 两 行 两 列 的 画 纸 


> plot(hp, mpg, main = ' 马 力 能 耗 散 点 图 ') 
> plot(wt, mpg, main = ' 重 量 能 耗 散 点 图 ') 
> hist(cyl,main- ' 气 缸 频数 直方 图 ') 

> boxplot(wt,main- ' 重 量 箱 线 图 ') 


# 恢 复原 来 设置 
# 释放 数据 集 


马力 能 耗 散 点 图 


重量 能 耗 散 点 图 
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图 5.10 各 种 常用 图 形 演示 


2. layout() 

layout() 的 调用 形式 为 layoutCmatrix) ,其 中 的 matrix 为 一 个 矩阵 ,该 矩阵 指定 了 多 个 
要 进行 组 合 的 图 形 所 在 的 位 置 。 图 5. 11 是 layout 布局 演示 图 。 下 面 用 数据 集 mtcars 进行 
举例 说 明 。 
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> attach(mtcars) 


> detach(mtcars) 


+ MR mtcars 数据 集 


# 释 放 数 据 集 


# 设 置 画 纸 第 一 行 两 幅 图 ,第 二 行 放置 第 三 幅 图 (图 5.11) 
> layout(matrix(c(1,2,3,3),2,2,byrow=T)) 
> plot(hp, mpg, main = ' 马 力 能 耗 散 点 图 ') 

> plot(wt, mpg, main = ' 重 量 能 耗 散 点 图 ') 

> hist(cyl,main = ' 气 缸 频 数 直方 图 '") 


马力 能 耗 散 点 图 
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layout 布局 演示 图 


layout(Cmatrix(c(1,2,3,3),2,2,byrow 一 T)) 将 画 纸 设 定 为 两 行 两 列 、 按 行 排列 的 矩 
阵 , 第 一 行 两 个 位 置 分 别 放置 第 一 幅 图 和 第 二 幅 图 ,第 二 行 两 个 位 置 放 置 第 三 幅 图 。 


5.2 高 级 绘图 函数 


通过 高 级 绘图 函数 可 以 创建 不 同类 型 的 图 形 。 表 5.6 列 出 了 R 语言 中 一 些 常 用 的 


zi 


级 绘图 函数 ,本 章 将 对 这 些 常 用 的 高 级 绘图 函数 进行 举例 说 明 。 
表 5.6 高 级 绘图 函数 


K 数 功 能 mR OM zx 能 
plotO 通用 二 维 图 pie() 饼 图 
boxplot 箱 线 barplot() 条 形 图 
hist() 直方 图 dotchartO 散 点 图 


5.2.1 通用 二 维 图 
plotC ) 是 最 常用 的 R 绘图 函数 ,是 一 个 泛 型 函数 ,是 R 中 绘图 使 用 最 多 的 函数 , 它 的 函 


数 形式 如 下 : 


plot(x, y, type=" ", 参 数 设 定 ) 
plotC ) 产 生 的 图 形 依赖 于 第 一 个 参数 的 类 型 参数 ,其 中 type 是 指 画图 的 类 型 ,具体 包 


AR 5.7 中 列 出 的 类 型 ,默认 值 为 "p", 即 散 点 图 。 


表 5.7 plot 绘图 类 型 参数 


参数 参数 描述 


散 点 图 (Points) 


直线 图 (Lines) 


点 线 图 (Both) 


除去 点 的 点 线 图 (the Lines Part Alone of"b") 


穿 过 点 的 点 线 图 (Both 'Overplotted') 


直方 图 (Histogram) 


a | 了 leljolc| 一 = 


阶梯 图 (Stairsteps) 


5.2.2 SF 
饼 图 主要 用 于 展示 频数 分 布 情况 ,在 商业 领域 中 应 用 非常 广泛 。 在 R 中 饼 图 的 绘制 函 


BON pie(x, labels) ,其 中 x 是 一 个 非 负数 值 向 量 ,表示 每 个 扇形 的 面积 ; labels 表示 各 扇形 
标签 的 字符 型 向 量 。 下 面 举例 说 明 。 


> opar <- par() # 保 存 当 前 设置 
# 设 置 画 纸 为 两 行 两 列 , 上 下 边界 2 英 分 ,左右 边界 0 英 分 

> par(mfrow =c(2,2),mar=c(2,0,2,0)) 

> nunbers « - c(10,12,8,9) + RUA 

> city<—e( AER, ' 上 海 ', 1 98 n BRI") # BUA 

> pie(numbers, labels = city, main = ' 简 单 饼 图 ') +2 FA 

> percent < round(numbers/sum(numbers) * 100) # 赋 值 


> city2«- paste(city, '', percent, '% ') # 赋 值 
> pie(numbers, labels = city2,col = rainbow(length(city)), 
main = ' 简 单 饼 图 标 上 百分比 ') # 绘 制 饼 图 ,修改 了 标签 和 颜色 
> library(plotrix) # 调 用 plotrix 软件 包 ,调用 之 前 要 先 安装 


# 绘 制 三 维 饼 图 ,其 中 explode 为 裂 开 的 距离 设置 

> pie3D(numbers, labels = city, explode = 0. 1, main = ' 三 维 饼 图 ') 

> attach(mtcars) + BBE E 

> mytable <- table(cyl) # 3k cyl 的 频数 表 并 赋值 给 mytable 
> lab«- paste(names(table(cyl1) )，' 个 气缸 ) # 设 置 标签 

> pie(mytable, labels = lab, main = ' 用 频数 表 绘制 饼 图 ') 

> detach(mtcars) 井 释放 数据 集 

> par(opar) 井 恢复 原来 的 设置 


图 5. 12 展示 了 饼 图 的 一 些 设 定 , 有 二 维 的 和 三 维 的 。 其 中 ,前 三 幅 图 形 是 假设 的 数据 
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绘制 而 成 ,第 四 幅 图 形 是 使 用 数据 集 mtcars 的 数据 绘制 的 。 


简单 饼 图 简单 饼 图 标 上 百分比 
北京 26% 
上 海 31% 
深圳 23% 
广州 21% 
三 维 饼 图 用 频数 表 绘制 饼 图 
4 个 气缸 
北京 
ti 6 个 气缸 
广州 深圳 
8 个 气缸 


5.12 各 种 饼 图 


第 一 幅 饼 图 是 样本 数据 绘制 的 简单 饼 图 。 第 二 幅 饼 图 将 样本 数 转换 为 比例 值 , 并 将 这 
项 信息 添加 到 各 扇形 的 标签 上 ,使 用 了 前 面 绘图 参数 颜色 中 提 到 的 rainbow O 4E X T 4 i 
形 的 颜色 。 这 里 的 rainbow(length(Ccity)) 将 被 解析 为 rainbow(4), 即 为 图 形 提供 了 4 种 颜 
色 。 第 三 幅 饼 图 使 用 plotrix 包 中 的 pie3D() 创 建 三 维 饼 图 。 第 四 幅 饼 图 利用 mtcars 数据 
集中 的 cyl( 气 负数 指标 ) 先 获取 了 它 的 频数 表 , 然 后 利用 频数 表 创建 饼 图 ,展示 了 mtcars 数 
据 集中 的 汽缸 数 (4 个 .6 个 8 个 ) ,并 将 此 信息 附加 到 了 标签 上 ,其 中 8 个 气缸 的 车 所 占 比 
例 最 大 ,其 次 是 4 个 气缸 ,最少 的 是 6 个 气缸 。 


5.2.3 箱 线 图 


箱 线 图 (Boxplot) 也 称 为 箱 须 图 (Box-whisker Plot) ,是 利用 数据 中 的 5 个 统计 量 : 最 小 
值 . 第 一 四 分 位 数 ( 第 25 百 分 位 数 ). 中 位 数 (第 50 百 分 位 数 )、 第 三 四 分 位 数 ( 第 75 百 分 位 
数 ) 与 最 大 值 来 描述 数据 的 一 种 方法 。 它 也 可 以 粗略 地 看 出 数据 是 否 具有 对 称 性 ,分 布 的 分 
散 程度 等 信息 。 箱 线 图 能 够 显示 出 可 能 为 离 群 点 (范围 土 1. 5 * IQR 以 外 的 值 ,IQR 表示 四 
分 位 距 , 即 上 四 分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 值 ,可 用 于 几 个 样本 的 比较 。 箱 线 图 函 
数 为 boxplot(x, labels) ,具体 看 下 面 的 代码 ,图 形 如 图 5. 13 tas: 


> attach(mtcars) 
> quantile(mpg) # 计 算 样 本 常用 分 位 数 
0% 25% 50% 75% 100% 
10.400 15.425 19.200 22.800 33.900 
> boxplot(mpg, main = "#8 #& PA", ylab = 'mpg') 


箱 线 图 
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图 5.13 mtcars 数据 集 的 箱 线 图 


通过 quantile() 的 计算 结果 : 车 型 样本 中 ,每 加 仑 汽油 行驶 英里 数 的 中 位 数 是 19.2, 
50% 的 值 都 落 在 了 15. 425 和 22. 8 之 间 , 最 小 值 为 10. 4, 最 大 值 为 33. 9。 也 可 以 执行 
boxplot. stats(mpg) ,输出 用 于 构建 箱 线 图 的 统计 量 。 从 生成 的 箱 线 图 可 以 看 出 5 点 的 位 
置 , 也 可 以 大 致 看 出 频数 分 布 情况 。 箱 子 越 小 ,说 明 中 间 分 布 越 集中 ,反之 则 离散 程度 较 高 。 
默认 情况 下 ,两 条 须 的 延伸 极限 不 会 超过 盒 型 各 端 加 1. 5 倍 四 分 位 距 的 范围 。 此 范围 以 外 
的 值 将 以 “点 ”来 表示 ,在 上 例 样本 中 没有 异常 值 。 上 面 的 须 长 大 于 下 面 的 须 长 ,说 明 分 布 存 
在 右 偏 。 

针对 箱 线 图 的 对 比 样本 的 效果 ,使 用 并 列 箱 线 图 进行 跨 组 比较 ,函数 表示 为 : 


boxplot ( formula, data = dataframe ) 


其 中 ,formula 是 一 个 公式 ,dataframe 代表 提供 数据 的 数据 框 (或 列表 )。 一 个 示例 公 
式 为 y 一 A, 这 将 为 变量 A 的 每 个 值 并 列 地 生成 数值 型 变量 y 的 箱 线 图 。 公 式 y 一 A* B 则 
将 为 变量 A 和 也 所 有 水 平 的 两 两 组 合生 成 数值 型 变量 y 的 箱 线 图 。 添 加 参数 varwidth= 
TRUE, 将 使 箱 线 图 的 宽度 与 其 样本 大 小 的 平方 根 成 正比 ,参数 horizontal= TRUE 可 以 反 
转 坐 标 轴 的 方向 。 

1. 单个 因子 的 箱 线 图 

使 用 并 列 箱 线 图 继续 研究 4 个 气缸 .6 个 气缸 、8 个 气缸 发 动机 对 每 加 仑 汽油 行驶 的 英 
里 数 的 影响 ,并 进行 分 类 汇总 ,分 别 绘制 描述 不 同 气缸 的 汽车 mpg 分 布 的 箱 线 图 ,结果 如 
图 5. 14 Bros ,代码 如 下 : 


> boxplot(mpg ~ cyl, data = mtcars, main = "汽车 里 程 数据 "， 
col = c(5,6,7),xlab= "cyl",ylab - "mpg") 井 按照 cyl 对 mpg 进行 分 类 绘制 箱 线 图 


由 图 5. 14 可 以 看 到 不 同 组 间 油 耗 的 区 别 非 常 明显 ,气缸 越 多 , 耗 油 量 越 大 ; 6 个 气缸 车 
型 的 每 加 仑 汽油 行驶 的 英里 数 分 布 较 其 他 两 类 车 型 更 为 均匀 。 与 其 他 两 个 气缸 车 型 相 比 ,4 
个 气缸 车 型 的 每 加 仑 汽油 行驶 的 英里 数 散布 最 广 且 存在 正 偏 ,在 8 个 气缸 组 还 有 一 个 离 

2. 两 个 交叉 因子 的 箱 线 图 

下 面 考虑 不 同 气 缸 数 和 不 同 变速 箱 类 型 的 车 型 ,两 种 因子 交叉 影响 下 的 箱 线 图 如 
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图 5.14 多 样本 箱 线 图 
图 5. 15 所 示 , 具 体 代 码 如 下 : 


度 与 其 样本 大 小 的 平方 根 成 正比 
> cy1. f <— factor(cyl, levels = c(4,6,8), labels = c("4","6","8")) 


# 绘 制 双 因 子 箱 线 
> boxplot (mpg— am. f * cyl. f, data = mtcars, varwidth = T, col = c(5,6), 
main = "mpg 按照 汽车 类 型 分 布 "，xlab =“" 汽 车 类 型 ") 


# 按 照 类 别 型 变量 cyl 和 am 所 有 水 平 的 两 两 组 合生 成 数值 型 变量 mpg 的 箱 线 图 ,并 使 箱 线 图 的 宽 


# 定 义 因子 cy1. f 


>am. f <— factor(am, levels = c(0,1), labels = c(" 自 动 挡 ", "手动 挡 ")) # EXT amt 


mpg 按 照 汽车 类 型 分 布 


25 


20 g7- 
: = 


' 
' 
' 
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自动 挡 4 手动 挡 4 自动 挡 6 手动 挡 6 自动 挡 8 手动 挡 8 
汽车 类 型 


5.15 两 个 交叉 因子 的 箱 线 图 


第 5 章 ”R 语 言 绘 


图 5. 15 绘制 了 每 加 仑 汽油 行驶 英里 数 按照 汽车 类 型 分 布 的 箱 线 图 。 同 样 的 ,这 里 使 用 
参数 col 为 箱 线 图 进行 着 色 ,请 注意 颜色 的 循环 使 用 。 在 本 例 中 共有 6 幅 箱 线 图 和 两 种 指 
定 的 颜色 ,所 以 颜色 将 重复 使 用 三 次 。 

图 5. 15 清晰 地 显示 出 油耗 随 着 缸 数 的 增多 而 变 大 。 对 于 4 个 气缸 和 6 个 气缸 车 型 , 标 
准 变速 箱 ( 手 动 挡 ) 的 油耗 更 高 ; 但 对 于 8 个 气缸 车 型 ,油耗 似乎 没有 差别 。 从 箱 线 图 的 宽 
度 可 以 看 出 ,4 个 气缸 标准 变速 箱 的 车 型 和 8 个 气缸 自动 变速 箱 的 车 型 在 数据 集中 最 常见 。 


5.2.4 条 形 图 


条 形 图 通过 垂直 的 或 水 平 的 条 形 展示 了 类 别 型 变量 的 分 布 (频数 ) ,函数 为 barplot (x) ,其 
中 x 是 一 个 向 量 或 一 个 矩阵 。 

CD 车 x 是 一 个 向 量 , 则 它 的 值 就 确定 了 各 条 形 的 高 度 ,并 将 绘制 一 幅 垂 直 的 条 形 图 。 

(2) 车 x 是 一 个 矩阵 而 不 是 向 量 ,那么 绘图 结果 将 是 一 幅 堆 砌 条 形 图 或 分 组 条 形 图 。 
如 果 beside 二 FALSE( 默 认 值 ) ,那么 矩阵 中 的 每 一 列 都 将 生成 图 中 的 一 个 条 形 ,各 列 中 的 
值 将 给 出 堆砌 的 * 子 条 ”的 高 度 。 若 beside=TRUE, 那 么 矩阵 中 的 每 一 列 都 表示 一 个 分 组 ， 
各 列 中 的 值 将 并 列 而 不 是 堆砌 。 

另外 ,使 用 选项 horiz= TRUE 则 会 生成 一 幅 水 平 条 形 图 。 同 时 可 以 添加 标注 选项 ,其 
中 main 选项 可 添加 一 个 图 形 标题 ,而 xlab 和 ylab 选项 则 会 分 别 添加 x 轴 和 y 轴 标 签 , 具 体 
参考 下 面 的 例子 。 

1. x 是 一 个 向 量 


> attach(mtcars) 
H 绘制 简单 条 形 图 (如 图 5.16 所 示 ) 
> gear.c«- table(gear) 
> barplot(gear. c, main = "Car Distribution",,col- c(5,6,7) 
xlab = "Number of Gears") 
# 水 平 放置 ,设置 标签 (如 图 5.17 所 示 
> barplot(gear.c, main= "Car Distribution", horiz = T, 
names. arg = c("3 Gears", "4 Gears", "5 Gears"),col- c(5,6,7)) 


Car Distribution 


N 


3 4 5 
Number of Gears 


图 5.16 向 量 条 形 图 纵向 演示 
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Car Distribution 


4 6 8 10 m2 M 
图 5.17 向 量 条 形 图 横向 演示 


2. x 是 一 个 矩阵 


# 堆 积 条 形 图 ,设置 填充 颜色 和 图 例 ( 如 图 5. 18 所 示 ) 
>vg.c <- table(vs, gear) 
> barplot(vg.c,main- "Car Distribution by Gears and VS", 
xlab = "Number of Gears", col = c("darkblue","red"), 
legend = rownames(vg.c)) 
# 分 组 条 形 图 (如 图 5.19 所 示 ) 
> barplot(vg.c,main= "Car Distribution by Gears and VS (2)", 
xlab = "Number of Gears", col = c("darkblue","red"), 
legend = rownames(counts) , beside = T) 
> detach(mtcars) 


Car Distribution by Gears and VS 
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5.18 堆积 条 形 图 


5.2.5 直方 图 


直方 图 通过 在 x 轴 上 将 值 域 分 割 为 一 定数 量 的 组 ,在 y 轴 上 显示 相应 值 的 频数 ,展示 了 
连续 型 变量 的 分 布 ,可 以 使 用 hist(x) 创 建 直 方 图 ,其 中 x 是 一 个 由 数据 值 组 成 的 数值 向 量 。 
参数 freq= FALSE 表示 根据 概率 密度 而 不 是 频数 绘制 图 形 , 参 数 breaks 用 于 控制 组 的 数 


Car Distribution by Gears and VS(2) 
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图 5. 19 分 组 条 形 图 
量 。 在 定义 直方 图 中 的 单元 时 ,默认 将 生成 等 距 切 分 ,具体 代码 如 下 ,图形 如 图 5. 20 所 示 : 


>opar= par() # 默 认 设置 赋值 给 opar 
> attach(mtcars) + 加 载 数 据 集 mtcars 
>par(mfrow = c(2, 2)) # 设 置 为 4 幅 图 的 画 纸 
# 绘 制 第 一 幅 : mpg 直方 图 ,其 他 为 默认 设置 
> hist(mpg) 
# 绘 制 第 二 幅 : 有 12 组 的 红色 mpg 直方 图 
>hist(mpg, breaks = 12, col = "red", xlab = "mpg", 
main = "Colored histogram with 12 bins") 
# 绘 制 第 三 幅 : 按照 概率 密度 绘制 的 直方 图 ,添加 蓝 色 概率 密度 曲线 
>hist(mpg, freq = F, breaks = 12, col = "red", xlab = "mpg", 
main = "Histogram, density curve") 
> lines(density(mpg), col = "blue", lwd = 2) 
# 绘 制 第 四 幅 : 直方 图 加 上 拟 合 的 正 态 曲 线 和 边框 
>x<- mpg 
>h<- hist(x, breaks = 12, col = "red",xlab = "mpg", 
main = "Histogram with normal curve and box") 
> xf 让 < 一 seq(min(x), max(x), length = 40) 
>yfit <- dnorm(xfit, mean = mean(x), sd = sd(x)) 
»yfit«- yfit * diff(h$ mids[1:2]) * length(x) 
>lines(xfit, yfit, col = "blue", lwd = 2) 


> box() 
> par(opar) SRARVEE 
> detach(mtcars) + # k Skil fE ntcars 


第 一 幅 直方 图 展示 了 未 指定 任何 选项 时 的 默认 图 形 ,自动 生成 了 5 个 组 ,并 且 显示 了 默 
认 的 标题 和 坐标 轴 标 签 。 第 二 幅 直方 图 将 组 数 指定 为 12, 使 用 红色 填充 条 形 , 并 添加 了 更 
吸引 人 、 更 具 信息 量 的 标签 和 标题 。 第 三 幅 直 方 图 保留 了 上 一 幅 图 中 的 颜色 ,组 数 、 标 签 和 
标题 设置 ,添加 了 一 条 密度 曲线 , 它 为 数据 的 分 布 提供 了 一 种 更 加 平滑 的 描述 。 第 四 幅 直 方 
图 在 第 二 幅 直 方 图 的 基础 上 加 入 了 一 条 正 态 曲线 。 
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图 5.20 直方 图 相关 演示 


5.2.6 核 密度 图 


核 密度 估计 (Kernel Density Estimation) 是 在 概率 论 中 用 来 估计 未 知 的 密度 函数 ,属于 
非 参数 检验 方法 之 一 。 核 密度 估计 方法 不 利用 有 关 数 据 分 布 的 先 验 知识 ,对 数据 分 布 不 附加 
任何 假定 ,是 一 种 从 数据 样本 本 身 出 发 研究 数据 分 布 特征 的 方法 。 核 密度 图 是 一 种 用 来 观察 
连续 型 变量 分 布 的 有 效 方法 ,绘制 密度 图 的 语法 为 plot(density(x)), 其 中 x 是 一 个 数值 型 向 
量 。 由 于 plot() 会 创建 一 幅 新 的 图 形 ,因此 要 向 一 幅 已 经 存在 的 图 形 上 释 加 一 条 密度 曲线 
可 以 使 用 lines 〇 (如 上 一 小 节 直 方 图 绘制 中 所 示 )。 具 体 代码 如 下 ,图 形 如 图 5.21 所 示 : 


>attach(mtcars) 

>par(mfrow = c(2, 1)) 

»mpg.d«- density(mpg) 

> plot (mpg. d) # 第 一 幅 , 核 密度 图 

> plot(mpg. d, main = "mpg 核 密度 图 ")# 第 二 幅 , 着 色 的 核 密度 图 
> polygon(mpg. d, col = "red", border = "blue") 

> rug(mtcars $ mpg, col = "brown" ) 

> par(opar) 上 # 恢 复 默 认 设置 


> detach(mtcars) 


在 第 一 幅 图 中 使 用 默认 设置 创建 的 最 简 图 形 。 在 第 二 幅 图 中 添加 了 一 个 标题 ,将 曲线 
修改 为 蓝 色 ,使 用 实心 红色 填充 了 曲线 下 方 的 区 域 , 并 添加 了 棕色 的 轴 须 图 。polygon() 根 
据 顶 点 的 x 和 y 坐标 (本 例 中 由 density() 提 供 ) 绘 制 了 多 边 形 。 

核 密 度 图 可 用 于 比较 组 间 差 异 。 可 能 是 由 于 普遍 缺乏 方便 好 用 的 软件 ,这 种 方法 其 实 
没有 被 充分 利用 。 幸 运 的 是 ,sm 包 填 补 了 这 一 缺口 ,其 中 的 sm. density. compareC ) 可 向 图 
形 番 加 两 组 或 更 多 的 核 密 度 图 ,其 语法 格式 为 sm. density. compare(x. factor) ,其 中 x 是 一 
个 数值 型 向 量 ,factor 是 一 个 分 组 变量 。 利 用 mtcars 数据 集 进行 列举 ,比较 分 别 拥有 4 个 .6 
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图 5.21 核 密度 分 布 图 
个 或 8 个 汽缸 车 型 的 每 加 仑 汽油 行驶 英里 数 ,代码 如 下 : 


> library(sm) 

> attach(mtcars) 

>cyl.f <- factor(cyl, levels = c(4, 6, 8), labels = c("4 cylinder", "6 cylinder", 
"8 cylinder") ) 划 定 义 分 类 因子 

# 绘 制 核 密度 图 

> sm. density. compare(mpg, cyl, xlab = "Miles Per Gallon") 

>title(main = "不 同 汽缸 数 的 mpg") 

>colfill <- c(2:(2 + length(levels(cyl.f)))) # 设 定 填充 颜色 

# 添 加 图 例 

> legend( locator(1), levels(cyl.f), fill = colfill) 

> detach(mtcars) 


图 5. 22 中 的 图 例 增加 了 图 表 的 可 解释 性 。 上 述 代 码 首先 创建 的 是 一 个 颜色 向 量 ,这 里 
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5.22 各 汽缸 数 的 核 密度 曲线 
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的 colfill 值 为 <(2，3，4) ,然后 通过 legend() 向 图 形 上 添加 一 个 图 例 。 第 一 个 参数 值 
locator(1) 表 示 用 鼠标 单 击 想 让 图 例 出 现 的 位 置 来 交互 式 地 放置 这 个 图 例 ; 第 二 个 参数 值 
则 是 由 标签 组 成 的 字符 向 量 ; 第 三 个 参数 值 使 用 向 量 colfill X cyl. f 的 每 一 个 水 平 指定 了 
一 种 颜色 。 

如 图 5. 22 所 示 , 核 密度 图 的 释 加 不 失 为 一 种 在 某 个 结果 变量 上 跨 组 比较 观测 的 强大 方 
法 ,可 以 看 到 不 同 组 所 含 值 的 分 布 形状 ,以 及 不 同 组 之 间 的 重 双 程度 不 同 。 


5.2.7 点 图 


点 图 给 出 了 一 种 在 水 平 刻度 线 上 创建 有 大 量 标签 值 的 方法 ,点 图 函数 为 dotchart(x， 
labels) ,其 中 x 为 一 个 数值 向 量 ,labels 表示 每 个 点 的 标签 构成 的 向 量 。 下 面 运用 该 函数 
绘制 点 图 ,R 代码 如 下 ,图 形 如 图 5.23 所 示 : 


> attach(mtcars) 

> dotchart(mtcars $ mpg, labels = row. names(mtcars), 

+ main = "mpg AR") # 点 图 

> par(opar) 井 恢复 默认 设置 


> detach(mtcars) 


mpg 点 图 


-- 


Volvo 142E 
Maserati Bora 
Ferrari Dino 
Ford Pantera L 
Lotus Europa 
Porsche 914-2 
Fiat X1- 
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Cadillac Fleetwood 
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Merc 450SL 
Merc 450SE 
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Valiant 

Hornet Sportabout 
Hornet 4 Drive 
Datsun 710 
Mazda RX4 Wag 
Mazda RX4 


图 5.23 点 图 
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可 以 使 用 color 设置 点 图 的 颜色 ,具体 代码 如 下 ,图 形 如 图 5. 24 所 示 。 


> mtcars $ cyl < 一 factor(mtcars $ cyl) 

> mtcars $ color[mtcars $ cyl == 4] <- "blue" 

> mtcars $ color[mtcars $ cyl == 6] <- "red" 

> mtcars $ color[mtcars $ cyl ==8] <— "brown" 

> dotchart(mtcars $ mpg, labels = row. names(mtcars),color = mtcars $ color, 
+ main- "mpg 点 图 ") # 第 二 幅 , 着 色 的 点 图 

> par(opar) 井 恢复 默认 设置 

> detach(mtcars) 


mpg 点 图 
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图 5.24 着 色 的 点 图 


5.3 ”低级 绘图 函数 


低级 绘图 函数 是 指 在 高 级 绘图 函数 绘制 出 的 图 上 进行 点 、 直 线 线段 箭头、 网 格 线 等 的 
添加 ,使 图 更 加 丰富 。 表 5. 8 列 出 了 部 分 常用 的 低级 绘图 函数 。 
表 5.8 低级 绘图 函数 表 


函数 名 称 函数 描述 
points 在 当前 绘图 区 增加 点 
lines 在 当前 绘图 区 增加 连接 线 
abline(a,b) 在 当前 绘图 区 增加 一 个 斜率 为 b, 截 距 为 a 的 直线 
abline(h=y) h=y 可 用 于 指定 贯穿 整个 图 的 水 平 线 高 度 的 y 坐标 
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BR 


函数 名 称 


函数 描述 


abline(v— x) 


v 一 x 类 似 地 用 于 指定 垂直 线 的 x 坐标 


abline(lm:obj) 


Im; obj 可 能 是 一 个 有 长 度 为 2 的 coefficients 分 量 ( 如 模型 拟 合 的 结果 ) 的 列表 ， 
该 分 量 中 依次 含有 截 距 和 斜率 


segments 绘制 点 对 之 间 的 线段 
arrows 绘制 点 对 之 间 的 箭头 
grid 在 当前 绘图 区 增加 网 格 线 


这 里 只 进行 简单 的 举例 ,不 再 进行 太 多 的 闭 述 ,代码 如 下 ,图形 如 图 5.25 Bros : 


plot(-4:4, - 4:4, type = "p", col = "blue") 井 基本 实现 
points(x=c(3, - 2, - 1,3,2), y=c(1,2, - 2,2,3), col = "red") # 绘 制 点 、 连 接点 
lines(x=c(3, - 2, - 1,3,2), y= c(1,2, - 2,2,3),col- "black") # 绘 制 直线 


abline(h=0) ; abline(v = 0) 

abline(a=1,b=1) 

abline(1m(mtcars $ mpg ~ mtcars $ qsec),col = "red") 

segments(x0 = 2, yO= — 4.5, x1-4, yl= -2, col="red", lty- "dotted") # 绘 制 线段 
arrows(x0= -4, yO=4, xl= -2, yl =0, length- 0.15, angle = 30, code = 3) 
grid(nx = 3, ny=5, col = "lightgray", lty = "dotted") # 绘 制 网 格 线 


图 5.25 低级 函数 绘图 
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数据 分 析 是 R 的 重要 功能 ,包括 基本 的 数据 处 理 函 数 、 多 元 统计 分 析 的 实现 等 。 本 章 
主要 介绍 R 进行 数据 处 理 常 用 的 数学 统计 等 基础 函数 ,以 及 方差 分 析 、 判 别 分 析 、 聚 类 分 
析 、 主 成 分 分 析 、 因 子 分 析 和 典型 相关 分 析 等 多 元 统计 分 析 方 法 。 


6.1 数据 处 理 基 础 函数 

本 节 将 综述 R 中 作为 数据 处 理 基础 的 函数 ,它们 可 分 为 数值 (数学 .统计 、 概 率 ) 函数 和 
字符 处 理 函 数 。 

6.1.1 数学 函数 


在 一 些 函数 或 模型 中 常常 遇 到 一 些 数 学 类 的 计算 。 对 此 ,R 也 给 出 了 相应 的 计算 函数 ， 
# 6.1 列 出 了 一 些 R 常用 数学 函数 。 


表 6.1 R 常 用 数学 函数 


K 数 d 述 
abs(x) 绝对 值 ,如 abs( 一 4) 的 返回 值 为 4 
sqrt(x) 平方 根 , 如 sqrt(25) 的 返回 值 为 5 
ceiling( x) 向 上 取 整 ,如 ceiling(3. 475) 的 返回 值 为 4; ceiling(—3. 475) 的 返回 值 为 一 3 
floorCx) 向 下 取 整 ,如 floor(3. 475) 的 返回 值 为 3; floor( 一 3.475) 的 返回 值 为 一 4 
trunc(x) 截取 整数 部 分 ,如 trunc(5. 99) 的 返回 值 为 5; trunc( 一 5.99) 的 返回 值 为 一 5 


round(x,digits=n) 四 舍 五 人 ,指定 小 数 的 位 数 , 如 round(3. 475, digits 二 2) 的 返回 值 为 3. 48 
log, (x) (x, base=n) Xf x HU n 为 底 的 对 数 

log(x) 自然 对 数 , 如 log(10) 的 返回 值 为 2. 3026 

log10(x) 常用 对 数 , 如 log10(10) 的 返回 值 为 1 

exp(x) 指数 函数 ,如 exp(2. 3026) 的 返回 值 为 10 
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6.1.2 统计 函数 


R 的 统计 计算 功能 强大 ,在 数据 分 析 、 建 模 时 往往 需要 借助 一 些 基 础 的 统计 函数 对 数据 
进行 简单 的 统计 分 析 , 表 6.2 列 出 了 一 些 R 常用 的 统计 函数 。 


表 6.2 R 常用 的 统计 函数 


PA 数 描 3 

mean(x) 平均 数 ,如 mean(c(1,2,3,4)) 的 返回 值 为 2.5 

median( x) 中 位 数 ,如 median(c(1,2,3,4)) 的 返回 值 为 2.5 

sd(x) 标准 差 , 如 sd(c(1,2,3,4)) 的 返回 值 为 1. 29 

var( x) 方差 ,如 var(c(1,2,3,4)) 的 返回 值 为 1. 67 

ETE 44 Xt rh (i222 (Median Absolute Deviation) ,如 mad(c(1,2,3,4)) 的 返回 值 为 
1.48 
求 分 位 数 ,其 中 x 为 待 求 分 位 数 的 数值 型 向 量 ,probs 为 一 个 由 [0,1] 之 间 的 
概率 值 组 成 的 数值 向 量 ,如 : 


quantile(x, probs) 


R x f 30% A 84% 4 LR 
y<—quantile(x, cC. 3,. 840) 
求 值 域 ,如 x 二 一 ce(1,2,3,4) ,range(x) 的 返回 值 为 c(1,4),diff(range(x)) 


range(x) 


的 返回 值 为 3 
sum(x) 求 和 ,如 sum(c(1,2,3,4)) 的 返回 值 为 10 
滞后 差分 ,lag 用 以 指定 滞后 几 项 。 默 认 的 lag 值 为 1, 如 : 
diff(x,lag=n) x<—c(1, 5, 23, 29) 
diff(x) 的 返回 值 为 c(4, 18, 6) 
min(x) 求 最 小 值 , 如 min(c(1,2,3,4)) 的 返回 值 为 1 
max(x) 求 最 大 值 , 如 max(c(1,2,3,4)) 的 返回 值 为 4 


scale( x, center = T, scale | 为 数据 对 象 x 按 列 进行 中 心 化 (center 二 TRUE) 或 标准 化 (center 二 TRUE， 
=T) scale = TRUE) 


下 面具 体 介绍 两 类 常用 的 函数 。 

1. scale() 

scale() 用 于 对 数据 进行 标准 化 处 理 , 默 认 情 况 下 scale() 对 矩阵 或 数据 框 的 指定 列 进行 
均值 为 0、 标 准 差 为 1 的 标准 化 处 理 ,命令 如 下 : 


newdata <— scale(mydata) 
要 对 每 一 列 进行 任意 均值 和 标准 差 的 标准 化 处 理 , 命 令 如 下 : 
newdata <— scale(mydata) * SD + M 


其 中 ,M 表示 指定 的 均值 ; SD 表示 指定 的 标准 差 。 在 非 数 值 型 的 列 上 使 用 scale() 将 
会 报错 。 要 对 指定 列 而 不 是 整个 矩阵 或 数据 框 进行 标准 化 ,可 以 使 用 如 下 命令 : 


newdata «- transform(mydata, myvar = scale(myvar) * SD + M) 


该 命令 将 变量 myvar 标准 化 为 均值 M ,标准 差 为 SD 的 变量 。 
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2. apply() 
apply(A, MARGIN, FUN, --) 
其 中 ,人 A 为 数据 对 象 ,MARGIN 表示 维度 的 下 标 ,FUN 为 指定 的 函数 ,“…” 包 括 了 任何 


6.1.3 概率 函数 
在 进行 数据 分 析 时 经 常会 遇 到 各 种 分 布 的 假设 和 检验 ,R 提供 了 大 量 


直接 调用 ,具体 如 表 6. 3 所 示 。 


想 传 递 给 FUN 的 参数 。 在 矩阵 或 数据 框 中 ,MARGIN 王 1 #17 ,.MARGIN=2 表示 列 。 


的 概率 函数 可 以 


表 6.3 概率 函数 

分 布 名 称 R 函数 分 布 名 称 R 函数 
Beta 分 布 beta Logistic 分 布 logis 
二 项 分 布 binom 多 项 分 布 multinom 
柯 西 分 布 cauchy 负 二 项 分 布 nbinom 
卡 方 分 布 ( 非 中 心 ) chisq 正 态 分 布 norm 
指数 分 布 exp 泊 松 分 布 pois 
下 分 布 f Wilcoxon 符号 秩 分 布 signrank 
Gamma 分 布 gamma t 分 布 t 
几何 分 布 geom 均匀 分 布 unif 
超 几何 分 布 hyper Weibull 分 布 weibull 
对 数 正 态 分 布 Inorm Wilcoxon 秩 和 分 布 wilcox 


在 R 中 对 于 不 同 分 布 在 求 密度 函数 、 分 布 函数 、 分 位 数 函 数 和 生成 随机 数 时 ,依次 使 用 


d.p.q.r 后面 跟 上 相应 的 函数 名 称 即 可 。 比 如 ,对 于 标准 正 态 分 布 (均值 为 0, 标准 差 为 D 
而 言 ,其 密度 函数 为 dnorm、 分 布 函 数 为 pnorm、 分 位 数 函 数 为 qnorm、 随 机 数 生 成 函数 为 
rnorm。 总 而 言 之 ,只 需 在 概率 分 布 前 加 上 d.p.q.r 这 4 项 前 级 就 可 以 实现 该 分 布 的 相应 效 
果 ,具体 可 以 通过 help() 进 行 了 解 。 


以 正 态 分 布 为 例 , 如 果 不 指 定 一 个 均值 和 一 个 标准 差 , 则 有 : 
(D d 三 密度 函数 (density) 

dnorm (x,…) ,其 中 x 为 数值 向 量 。 

(2) p 三 分布 函数 Cdistribution function) 

pnorm (qd,…) ,其 中 q 为 数值 向 量 。 

(3) q 一 分 位 数 函 数 Cquantile function) 

qnorm (p,…) ,其 中 p 为 概率 构成 的 数值 向 量 。 

(4) r= #E ë BË BL BE (random) 

rnorm (n,…) ,其 中 mn 为 生成 数据 的 个 数 。 


6.1.4 数据 分 析 实 例 


1. 问题 分 析 
一 组 学 生 参 加 了 数学 、 科 学 和 英语 考试 。 为 了 给 所 有 学 生 确定 一 个 单 


一 的 成 绩 衡量 指 
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标 ,需要 将 这 些 科目 的 成 绩 组 合 起 来 ,将 前 20% 的 学 生 评 定 为 A, 接 下 来 20% 的 学 生 评定 为 
B, 以 此 类 推 ,并 且 按 字母 顺序 对 学 生 排序 。 数 据 如 表 6.4 所 示 。 


表 6.4 学 生 的 考试 成 绩 


Student Math Science English 
John Davis 502 95 25 
Angela Williams 600 99 22 
Bullwinkle Moose 412 80 18 
David Jones 358 82 15 
Janice Markhammer 495 75 20 
Cheryl Cushing 512 85 28 
Reuven Ytzrhak 410 80 15 
Greg Knox 625 95 30 
Joel England 573 89 27 
Mary Rayburn 522 86 18 


观察 此 数据 集 ,可 以 发 现 一 些 明显 的 问题 。 首 先 , 三 科 考 试 的 成 绩 是 无 法 比较 的 。 由 于 
它们 的 均值 和 标准 差 相差 比较 大 ,所 以 对 它们 求 平均 值 是 没有 意义 的 。 在 组 合 这 些 考试 成 
绩 之 前 ,必须 将 其 变换 为 可 比较 的 单元 。 其 次 ,为 了 评定 等 级 ,需要 一 种 方法 来 确定 某 个 学 
生 在 前 述 得 分 上 的 百分比 排名 。 再 次 ,表示 姓名 的 字段 只 有 一 个 ,这 让 排序 任务 复杂 化 了 。 
为 了 正确 地 将 其 排序 ,需要 将 姓 和 名 拆 开 。 

2. 解决 方案 


> options(digits- 2) 井 保 留 小 数位 数 2 位 
# 导入 数据 
> Student <— c("John Davis", "Angela Williams", 
"Bullwinkle Moose", "David Jones", 
"Janice Markhammer", "Cheryl Cushing", 
"Reuven Ytzrhak" , "Greg Knox", 
"Joel England", "Mary Rayburn") 
» Math«- c(502, 600, 412, 358, 495, 512, 410, 625, 573, 522) 
> Science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86) 
» English «- c(25, 22, 18, 15, 20, 28, 15, 30, 27, 18) 
# 建 立成 绩 表 数 据 框 
> roster «- data.frame(Student, Math, Science, English, stringsAsFactors = FALSE) 
# 对 学 生 三 门 课程 的 成 绩 进 行 标准 化 ,赋值 给 z 
>z <- scale(roster[,2:4]) 
>z 
Math Science English 
Dz,1 0.013 1.078 0.587 
[2,] 1.143 1.591 0.037 
[3,] -1.026 -0.847 -0.697 
[4,] -1.649 一 0.590 -1.247 
[5,] -0.068 -1.489 - 0.330 
[6,1 0.128 -0.205 1.137 
[7,] -1.049 -0.847 -1.247 
[8,1 1.432 1.078 1.504 
15,1 0.832 0.308 0.954 
[10,] 0.243 -0.077 -0.697 
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attr(,"scaled:center") 

Math Science English 

501 87 22 

attr(,"scaled:scale") 

Math Science English 

86.7 7.8 5.5 
# 计 算 z 的 每 行 平均 数 为 每 个 学 生 的 综合 得 分 score 
> score <— apply(z, 1, mean) 
# 在 数据 库 roster 后 面 加 上 score 变量 


> roster <— cbind(roster, score) 


# 取 分 位 数 并 赋值 给 
> y<- quantile(score, c(.8,.6,.4,.2)) 
2Y 


80% 60% 40% 20% 
0.74 0.44 -0.36 - 0.89 
HENGA, SPATE WT 80 % EA A, 依 此 类 推 , 将 等 级 赋值 给 grade 
> roster $ grade[score >= y[1]] «- "A" 
> roster $ grade[ score < y[1] & score» - y[2]] <- "B" 
> roster $ grade[ score < y[2] & score >= y[3]] «- "C" 
> roster $ grade[ score < y[3] & score >= y[4]] «- "D" 
> roster $ grade[ score < y[4]] <- "F" 


# 把 名 字 从 空格 处 拆 分 开 , 即 拆 成 姓 和 名 

> name < 一 strsplit((roster $ Student), " ") 
> name 

[[1] 

[1] "John" "Davis" 


[1] "Angela" "Williams" 


[1] "Bullwinkle" "Moose" 


[1] "David" "Jones" 


[1] "Janice" "Markhammer" 


[1] "Cheryl" "Cushing" 


[1] "Reuven" "Ytzrhak" 


[1] "Greg" "Knox" 


大 数据 分 析 : R 基 础 及 应 


[[10]] 
[1] "Mary" "Rayburn" 
# 提 取 列 表 中 每 个 成 分 的 第 2 个 元 素 和 第 1 个 元 素 , 分别 放 人 向 量 lastname( firstname) 
> lastname <— sapply(name, "[", 2) 
> firstname <— sapply(name, "[", 1) 
> roster «- cbind(firstname, lastname, roster[, 一 1]) 
# 先 按照 姓 再 按照 名 进行 排序 
> roster <- roster[order(lastname, firstname), ] 
> roster 

firstname lastname Math Science English score grade 
6 Cheryl Cushing 512 85 28 0.35 c 
2 John Davis 502 95 25 0.56 B 
9 Joel England 573 89 27 0.70 B 
4 David Jones 358 82 15 =3,16 F 
8 Greg Knox 625 95 30 1.34 A 
5 Janice Markhammer 495 75 20 — 0.63 D 
3 Bullwinkle Moose 412 80 18 - 0.86 D 
10 Mary Rayburn 522 86 18 -0.18 c 
2 Angela Williams 600 99 22 0.92 A 
w? Reuven Ytzrhak 410 80 15 = 1.05 F 


至 此 ,已 按照 要 求 在 R 环境 下 完成 了 问题 的 分 析 求解 。 
6.2 描述 性 统计 分 析 


数据 的 描述 性 统计 分 析 是 通过 绘制 统计 图 形 、 编 制 统计 表格 、 计 算 统计 量 等 方法 来 探索 
数据 的 主要 分 布 特征 ,揭示 其 中 存在 的 规律 。 在 描述 性 统计 中 ,样本 的 观测 值 中 含有 总 体 各 
方面 的 信息 , 它 来 自 总 体 ,信息 较为 分 散 , 显 得 杂乱 无 章 。 为 了 能 够 反映 总 体 的 各 项 特征 , 需 
要 将 这 些 分 散在 样本 中 的 有 关 总 体 的 信息 集中 起 来 ,对 样本 进行 加 工 , 得 到 统计 量 。 在 描述 
性 统计 量 的 计算 方面 ,针对 不 同类 型 的 数据 R 提供 了 非常 多 的 函数 来 获取 描述 性 统计 量 。 

6.2.1 描述 统计 函数 

本 节 主 要 介绍 R 中 一 些 常 用 的 描述 统计 函数 及 其 用 法 。 

1. summary() 


summary() 提 供 了 最 小 值 . 最 大 值 ` 四 分 位 数 和 数值 型 变量 的 均值 ,以 及 因子 向 量 和 好 
辑 型 向 量 的 频数 统计 ,下 面 举例 说 明 。 


> summary(mtcars[vars]) 
mpg hp wt 

Min. :10.40 Min. : 52.0 Min. 31.513 
1st Qu.:15.43 1st Qu.: 96.5 1st Qu. :2.581 
Median:19.20 Median:123.0 Median :3.325 
Mean :20.09 Mean :146.7 Mean :3.217 
3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 
Max. :33.90 Max. :335.0 Max. 15.424 


第 6 章 ”R 语 言 数 据 分 析 


2. sapply() 
同样 地 ,可 以 使 用 apply O X sapply 〇 计算 所 选择 的 任意 描述 性 统计 量 。 对 于 sapplyO ,其 
语法 格式 为 : 


sapply(x, FUN, options) 


其 中 ,x e eds AE CR PO . FUN 为 一 个 任意 的 函数 。 如 果 指 定 了 options, 它 们 将 被 
传递 给 FUN 。 可 以 在 这 里 插入 典型 函数 ,如 mean、sd、var、min、max、median,length、range 
和 quantile 等 。fivenum() 可 返回 5 数 总 括 ( 即 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 和 
最 大 值 )。 


> mystats <- function(x, na. omit = FALSE) { 

if (na. omit) 

x<- x[!is.na(x)] 

m«- mean(x) 

n«- length(x) 

s<- sd(x) 

skew <— sun((x- m)^3/s^3)/n 

kurt «- sum((x- m)^4/s^4)/n - 3 

return(c(n- n, mean = m, stdev- s, skew = skew, kurtosis = kurt)) 
} 


> sapply(mtcars[vars], mystats) 


mpg hp wt 
n 32.00 32.00 32.000 
mean 20.09 146.69 3.217 
stdev 6.03 68.56 0.978 
Skew 0.61 0.73 0.423 
kurtosis 一 0.37 -0.14 — 0.023 


3. aggregate() 

在 比较 多 组 个 体 或 观测 时 ,关注 的 焦点 经 常 是 各 组 的 描述 性 统计 信息 ,而 不 是 样本 整体 
的 描述 性 统计 信息 。 在 R 中 完成 这 个 任务 有 很 多 方法 。 在 6. 1. 2 节 中 ,利用 apply( ) 可 以 
实现 对 行列 的 汇总 ,也 可 以 使 用 aggregate() 来 分 组 获取 描述 性 统计 量 ,代码 如 下 所 示 : 


> aggregate(mtcars[,vars], by- list(am- mtcars $ am), mean) 
am mpg hp wt 

1.0 17 160 3.8 

2 1 24 127 2.4 

> aggregate(mtcars[,vars], by= list(am- mtcars $ am), sd) 
am mpg hp wt 

1.0 3.8 54 0.78 

2 1 6.2 84 0.62 


注意 : list(am— mtcars $ am) 65 4% M , Je RAK M 89 ZX list(mtcars $ am), #8 A am 列 将 被 
标注 为 Group. 1 而 不 是 am。 如 果 有 多 个 分 组 变量 ,可 以 使 用 by 一 list(Cnamel 一 groupvarl， 


name2 一 groupvar2,… .groupvarN) i$ 4) 。 
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遗憾 的 是 ,aggregate() 仅 允许 在 每 次 调用 中 使 用 平均 数 、 标 准 差 这 样 的 单 返回 值 函 数 ， 
无 法 一 次 返回 若干 个 统计 量 。 若 要 实现 这 样 的 任务 ,可 以 使 用 byO ,其 语法 格式 为 ， 


by(data, INDICES, FUN) 


其 中 ,data 是 一 个 数据 框 或 矩阵 ; INDICES 是 一 个 因子 或 因子 组 成 的 列表 ,定义 了 分 
组 ; FUN 是 任意 函数 。 具 体 如 下 : 


> by(mtcars[,vars], mtcars[,"am"], summary) 
mtcars[, "am"]: 0 
mpg hp 

Min. :10.40 Min. :62.0 Min. 3 
1st Qu.:14.95 1st Qu. :116.5 1st Qu. :3. 
Median:17.30 Median :175.0 Median 
Mean :17.15 Mean :160.3 Mean 
3rd Qu.:19.20 3rd Qu. :192.5 3rd Qu. 
Max. :24.40 Max. :245.0 Max. 


mtcars[, "am"]: 1 
mpg hp wt 
Min. :15.00 Min. :52.0 Min. 1 
1st Qu.:21.00 1st Qu. : 66.0 lst Qu. :1 
Median:22.80 Median :109.0 Median :2 
Mean :24.39 Mean  :126.8 Mean :2.411 
3rd Qu.:30.40 3rd Qu. :113.0 3rdQu. :2. 
Max. :33.90 Max. :335.0 Max. 3 


6.2.2 软件 包 的 描述 统计 


有 些 用 户 贡 献 包 提供 计算 描述 性 统计 量 的 函数 ,其 中 包括 Hmisc、pastecs 和 psych. iH 
于 这 些 包 不 在 安装 的 基础 包 中 , 故 在 首次 使 用 之 前 先 要 进行 安装 ,可 通过 命令 install. 
packages("packagename") 。 

1. Hmisc 包 

Hmisc 包 中 的 describe() 可 返回 变量 和 观测 的 数量 .缺失 值 和 唯一 值 的 数目 、. 平 均值、 
分 位 数 ,以 及 5 个 最 大 的 值 和 5 个 最 小 的 值 。 下 面 进行 举例 说 明 。 


> install. packages("Hnisc") 
> library(Hmisc) 
> describe(ntcars[vars]) 


mtcars[ vars] 
3 Variables 32 Observations 
mpg 
nmissing unique Mean .05 .10 .25 .50 “5 .90 .95 
32 0 25 20.09 12.00 14.34 15.43 19.20 22.80 30.09 31.30 


lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9 


第 6 章 ”R 语 言 数据 分 析 


nmissing unique Mean .05 .10 8: .50 as! .90 .95 
32 0 22 146.7 63.65 66.00 96.50 123.00 180.00 243.50 253.55 


lowest : 52 62 65 66 91, highest: 215 230 245 264 335 


n missing unique Mean .05 .10 3:25 .50 as .90 .95 
32 0 29 3.217 1.736 1.956 2.581 3.325 3.610 4.048 5.293 


lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424 


2. pastecs & 
pastecs 包 中 的 stat. desc() 可 以 计算 种 类 繁多 的 描述 性 统计 量 ,其 语法 格式 为 : 


stat.desc(x, basic = TRUE, desc = TRUE, norm = FALSE, p= 0.95) 


其 中 ,x 是 一 个 数据 框 或 时 间 序 列 。 若 basic= TRUE( 默 认 值 ), 则 计算 其 中 所 有 值 、 空 
值 缺 失 值 的 数量 ,以 及 最 小 值 、 最 大 值 、 值 域 ,还 有 总 和 。 若 desc 二 TRUE( 同 样 也 是 默认 
值 ), 则 计算 中 位 数 、 平 均 数 、 平 均 数 的 标准 误 、 平 均 数 置 信和 度 为 95% 的 置信 区 间 、 方 差 ,标准 
差 及 变异 系数 。 最 后 ,车 norm 二 TRUE( 不 是 默认 的 ), 则 返回 正 态 分 布 统计 量 , 包 括 偏 度 和 
峰 度 (及 它们 的 统计 显著 程度 ) ,以 及 Shapiro-Wilk 正 态 检验 结果 。 这 里 使 用 了 p 值 来 计算 
平均 数 的 置信 区 间 ( 默 认 置 信 度 为 0.95)。 具 体 见 下 面 的 代码 : 


> install. packages("pastecs") 
> library(pastecs) 
> stat. desc(mtcars[ vars] ) 

mpg hp wt 
nbr. val 32.0 32.00 32.00 
nbr. null 0.0 0.00 0.00 
nbr. na 0.0 0.00 0.00 
min 10.4 52.00 1.51 
max 33.9 335.00 5.42 
range 23.5 283.00 3.91 
sum 642.9 4694.00 102.95 
median 19.2 123.00 3.33 
mean 20.1 146.69 3.22 
SE. mean 1.1 12.12 0.17 
CI.mean.0.95 2.2 24.72 0.35 
var 36.3 4700.87 0.96 
std. dev 6.0 68.56 0.98 
coef.var 0.3 0.47 0.30 


3. doBy & 
在 doBy 包 中 summaryBy() 可 进行 统计 性 描述 ,其 语法 格式 为 : 
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summaryBy(formula, data = dataframe, FUN = function) 
其 中 ,formula 的 格式 为 : 


varl + var2 + var3 + … + VarN 一 groupvarl + groupvar2 + … + groupvarN 


在 一 左 侧 的 变量 是 需要 分 析 的 数值 型 变量 ,而 右 侧 是 类 别 型 的 分 组 变量 function 可 为 
任何 内 建 或 用 户 自 编 的 R 函数 。 有 具体 的 代码 如 下 : 


> options(digits = 2) 

> install. packages("doBy") 

> library(doBy) 

> summaryBy(mpg + hp + wt~am, data = mtcars, FUN = mystats) 
am mpg. n mpg. mean mpg. stdev mpg. skew mpg. kurtosis 


1 0 19 1? 3.8 0.014 一 0.8 

21 13 24 6.2 0.053 =$ 
hp. n hp. mean hp. stdev hp. skew hp. kurtosis wt.n 

1 39 160 54 -0.014 = 1.21 19 

2 13 127 84 1.360 0.56 13 
wt.mean wt. stdev wt. skew wt. kurtosis 

1 3.8 0.78 0.98 0.14 

2.4 0.62 0.21 1:39 
4. psych 包 


psych 包 中 的 describe. byC ) 可 计算 和 describe 相同 的 描述 性 统计 量 , 只 是 按照 一 个 或 
多 个 分 组 变量 分 层 ,具体 如 下 : 


> install. packages("psych" ) 
> library(psych) 
> describe. by(mtcars[ vars], mtcars $ am) 
group: 0 

vars n mean sd median trimmed mad min max range skew kurtosis se 
mpg 1 19 17.1 3.83 17.3 17.1 3.11 10.4 24.4 14 0.01 -0.80 0.88 
hp 2 19 160.3 53.91 175.0 161.1 77.10 62.0 245.0 183 -0.01 -1.21 12.37 
wt 3 19 3.8 0.78 3.5 3.8 0.45 2.5 5.4 3 0.98 0.14 0.18 


vars n mean sd median trimmed mad min max range skew kurtosis se 
mpg 1 13 24.4 6.17 22.8 24.4 6.67 15.0 33.9 18.9 0.05 -1.46 1.71 
hp 2 13 126.8 84.06 109.0 114.7 63.75 52.0 335.0 283.0 1.36 0.56 23.31 
wt 3 13 2.4 0.62 2.3 2.4 0.68 1.5 3.6 2.1 O22 =l T 0:17 


6.3 多 元 统计 分 析 


多 元 统计 分 析 也 称 为 多 因素 统计 分 析 , 是 运用 数理 统计 方法 来 研究 解决 多 指标 问题 的 理 
论 和 方法 。 它 是 研究 客观 事物 中 多 变量 或 多 因素 之 间 的 相互 依赖 关系 及 统计 规律 的 数理 统计 
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学 分 支 之 一 ,是 现代 统计 分 析 理 论 和 方法 。 通 过 采用 多 元 统计 分 析 技 术 进行 数据 处 理 、 建 立 宏 
观 或 微观 系统 模型 ,可 以 实现 对 变量 的 相关 性 分 析 ; 构造 预测 模型 ,进行 预报 控制 ; 进行 数值 
分 类 ,构造 分 类 模式 ; 简化 系统 结构 ,探讨 系统 内 核 4 方面 问题 的 解决 。 

多 元 统计 分 析 方 法 包括 判别 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 对 应 分 析 、 典 型 相关 
分 析 、 多 维 标 度 法 及 多 变量 可 视 化 分 析 等 。 其 中 , 主 成 分 分 析 与 因子 分 析 的 目的 是 寻找 多 个 变 
量 的 “代表 ”; 判别 分 析 能 将 对 象 分 类 到 已 知 类 别 中 ; 聚 类 分 析 按 照 一 定 的 尺度 把 对 象 分 类 ; 
典型 相关 分 析 研 究 两 组 变量 之 间 的 相关 问题 ; 对 应 分 析 探 究 行 列 变量 的 关系 。 

统计 软件 的 出 现 使 得 人 们 能 够 更 加 简便 和 准确 地 解决 实际 问题 ,作为 免费 ,开源 的 ROK 
说 ,在 统计 方面 更 是 有 着 自己 独特 的 优势 和 强大 的 绘图 功能 。 本 章 将 利用 R 软件 来 探索 多 元 
统计 分 析 方 面 的 应 用 。 


6.3.1 方差 分 析 


方差 分 析 (Analysis of Variance, ANOVA ) ,又 称 为 变异 数 分 析 或 下 检验 ,是 R. A. Fisher 发 
明 的 ,用 于 两 个 及 两 个 以 上 样本 均 数 差别 的 显著 性 检验 。 它 是 一 种 分 析 各 个 自 变量 对 因 变 量 
的 影响 的 方法 ,其 自 变量 是 定性 变量 的 因子 及 可 能 出 现 的 称 为 协 变量 的 定量 变量 。 由 于 各 种 
因素 的 影响 ,研究 所 得 的 数据 呈现 波动 状 ,造成 波动 的 原因 可 分 成 两 类 : 一 类 是 不 可 控 的 随机 
因素 , 另 一 类 是 研究 中 施加 的 对 结果 造成 影响 的 可 控 因素 ,方差 分 析 是 从 观测 变量 的 方差 人 
手 , 研 究 诸多 控制 变量 中 哪些 变量 是 对 观测 变量 有 显著 影响 的 变量 。 首 先 自 变 量 的 取 值 不 同 ， 
因 变 量 的 值 也 会 变化 ,方差 分 析 可 对 其 进行 分 解 ,从 而 得 出 每 一 个 自 变量 对 结果 都 有 一 份 贡 
献 ; 然后 把 剩 下 的 不 能 用 已 知 原因 解释 的 当 作 随 机 误差 ; 接着 对 各 自 变 量 和 随机 误差 的 贡献 
进行 下 检验 ,从 而 输出 下 值 和 检验 的 一 些 p 值 来 判断 该 自 变量 的 不 同 水 平 对 因 变 量 的 变化 是 
和 否 有 显著 贡献 ; 最 后 会 得 出 一 个 方差 分 析 表 来 表示 分 析 结 果 。 

下 面 给 出 一 个 在 R 环境 中 进行 方差 分 析 的 例子 。 


> x< 一 c(25. 6,22. 2,28. 0,29. 8, 24. 4, 30. 0, 29. 0, 27. 5, 25. 0, 27. 7, 23. 0, 32. 2, 28.8, 28. 0, 31. 5, 25. 9, 
20.6,21.2,22.0,21.2) 

# 数 据 集 用 5 个 因子 水 平 测量 ,是 否 存在 差异 

# 首 先 对 数据 x 进行 格式 转化 

>b<- data. frame(x,a = g1(5,4,20)) 

# 得 到 如 下 结果 (gl 指定 因子 ,5 是 水 平 ,4 是 重复 次 数 ) 
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1232.23 
1328.84 
1428.04 
1531.54 
1625.94 
1720.65 
1821.25 
19 22.05 
20 21.25 


在 进行 方差 分 析 之 前 先 对 几 条 假设 进行 检验 ,由 于 随机 抽取 ,假设 总 体 满足 独立 、 正 态 , 考 
察 方差 齐 次 性 (用 bartlett 检验 ) 。 


> bartlett. test(x~a, data = b) 

#Bartlett test of homogeneity of variances 

data: xbya 

Bartlett's K- squared = 7.0966, df = 4, p- value = 0.1309 


符合 方差 齐 次 性 条 件 , 可 进行 方差 分 析 。 


> ml <- aov(x— a, data = b) 

> summary(m1) 

D£ Sum Sq Mean Sq F value Pr(> F) 

A 4 132.0 32.99 4.306 0.0162 * 

Residuals 15 114.9 7.66 

Signif.codes: 0 '*** 0.001 '**'0.01 '*'0.05 '.'0.1 "1 


从 这 个 结果 看 出 差别 显著 。 接 下 来 考察 具体 的 差异 (多 重 比较 ) 。 


> "lukeyHSD (m1 ) 
Tukey multiple comparisons of means 
95% family- wise confidence level 
Fit: aov(formula = x — a, data = b) 


$a 
Diff Iwr upr padj 
2-1 1.325 - 4.718582 7.3685818 0.9584566 
3-1 0.575  — 5.468582 6.6185818 0.9981815 
4-1 2.150 - 3.893582 8.1935818 0.8046644 
5-1 -—5.150 -11.193582  0.8935818 0.1140537 
3-2 -0.750 -—6.793582 5.2935818 0.9949181 
4-2 0.825  - 5.218582 6.8685818 0.9926905 
5-2 -6.475 -12.518582 -0.4314182 0.0330240 
4-3 1.575  — 4.468582 7.6185818 0.9251337 
5-3 -5.725 -11.768582  0.3185818 0.0675152 
5-4 -7.300 -13.343582 -1.2564182 0.0146983 


BRT 5.2 # 5.4 之 间 外 ,其 他 之 间 的 差异 是 不 显著 的 。 


第 6 章 ”R 语 言 数据 分 析 


6.3.2 判别 分 析 


判别 分 析 又 称 为 "分辨 法 ”, 是 在 分 类 确定 的 条 件 下 ,根据 某 一 研究 对 象 的 各 种 特征 值 判别 
其 类 型 归属 问题 的 一 种 多 变量 统计 分 析 方 法 。 其 基本 原理 是 按照 一 定 的 判别 准则 建立 一 个 或 
多 个 判别 函数 ,用 研究 对 象 的 大 量 资料 确定 判别 函数 中 的 待定 系数 并 计算 判别 指标 , 据 此 即 可 
确定 某 一 样本 属于 何 类 。 当 得 到 一 个 新 的 样品 数据 ,要 确定 该 样品 属于 已 知 类 型 中 的 哪 一 类 ， 
这 类 问题 属于 判别 分 析 问 题 。 

判别 分 析 的 方法 大 体 上 有 三 类 , 即 Fisher 判别 .Bayes 判别 和 距离 判别 。Fisher 判别 思想 
是 投影 降 维 , 使 多 维 问题 简化 为 一 维 问题 来 处 理 。 选 择 一 个 适当 的 投影 轴 , 使 所 有 的 样品 点 都 
投影 到 这 个 轴 上 ,得 到 一 个 投影 值 。 对 这 个 投影 轴 方 向 的 要 求 是 : 使 每 一 组 内 的 投影 值 所 形 
成 的 组 内 离 差 尽 可 能 小 ,而 不 同 组 间 的 投影 值 所 形成 的 类 间 离 差 尽 可 能 大 。Bayes 判别 思想 是 
根据 先 验 概 率 求 出 后 验 概率 ,并 依据 后 验 概率 分 布 作出 统计 推断 。 距 离 判别 思想 是 根据 已 知 
分 类 的 数据 计算 各 类 别 的 重心 ,对 未 知 分 类 的 数据 ,计算 它 与 各 类 重心 的 距离 ,与 某 个 重心 距 
离 最 近 则 归于 该 类 。 

1. 线性 判别 

当 不 同类 样本 的 协 方 差 矩 阵 相 同时 ,可 以 在 R 中 使 用 MASS 包 的 Ida 函数 实现 线性 判别 。 
Ida 函数 以 Bayes 判别 思想 为 基础 。 当 分 类 只 有 两 种 且 总 体 服 从 多 元 正 态 分 布 条 件 下 ,Bayes 
判别 与 Fisher 判别 ,距离 判别 是 等 价 的 。 本 例 使 用 iris 数据 集 来 对 花 的 品种 进行 分 类 。 首 先 
BLA MASS 包 ,建立 判别 模型 ,其 中 的 prior 参数 表示 先 验 概率 。 然 后 利用 table 函数 建立 混淆 
和 矩阵, 比 对 真实 类 别 和 预测 类 别 。 


> library(MASS) 
> mode11 = lda(Species~. ,data= iris, prior = c(1,1,1)/3) 
> table(Species, predict(mode11) $ class) 


Species setosa versicolor virginica 
setosa 50 0 0 
Versicolor 0 48 2 
virginica 0 1 49 


从 以 上 结果 可 观察 到 判断 错误 的 样本 只 有 三 个 。 在 判别 函数 建立 后 ,还 可 以 类 似 主 成 分 
分 析 那 样 对 判别 得 分 进行 绘图 。 


> ld= predict(mode11) $ x 
> p = ggplot(cbind( iris, as. data. frame(1d)),aes(x = LD1, y= LD2)) 
> p+ geom point(aes(colour = Species), alpha = 0.8, size = 3) 


2. 二 次 判别 
当 不 同类 样本 的 协 方差 矩阵 不 同时 , 则 应 该 使 用 二 次 判别 。 


> model2 = gda(Species—.,data- iris, cv = T) 
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这 里 将 CV 参数 设置 为 是 使 用 留 一 交叉 检验 (leave 一 one 一 out cross— validation) , 
并 自动 生成 预测 值 。 这 种 条 件 下 生成 的 混淆 矩阵 较为 可 靠 。 此 外 ,还 可 以 使 用 predict 
(model) $ posterior 提取 后 验 概率 。 

注意 : 在 使 用 lda 和 qda 函数 时 ,其 假设 是 总 体 服 从 多 元 正 态 分 布 ,车 不 满足 的 话 则 谨 
慎 使 用 。 


6.3.3 聚 类 分 析 


正 所 谓 ” 物 以 类 聚 , 人 以 群 分 ”, 聚 类 分 析 是 一 种 研究 样品 或 变量 分 类 问题 的 多 元 统计 方 
法 。 所 谓 类 , 指 的 是 相似 元 素 的 集合 。 与 带 有 主观 性 和 任意 性 的 定性 分 类 处 理 不 同 , 聚 类 分 
析 属 于 客观 的 利用 数学 方法 实现 的 数值 分 类 , 它 更 加 科学 ,能 够 很 好 地 揭示 客观 事物 内 在 的 
本 质 差别 与 联系 。 聚 类 分 析 是 一 种 探索 性 的 分 析 ,在 分 类 的 过 程 中 不 必 事 先 给 出 一 个 分 类 
的 标准 , 它 能 够 从 样本 数据 出 发 ,自动 对 其 进行 分 类 ,其 结果 因 所 使 用 的 方法 不 同 而 不 同 。 

在 经 济 管理. 地质 勘探 .天气 预 报 、. 生 物 分 类 考古 学 .医学 ,心理 学 及 制定 国家 标准 和 
区 域 标准 等 领域 或 问题 的 研究 中 存在 大 量 量化 分 类 研究 。 例 如 在 生物 学 中 ,为 了 研究 生物 
的 演变 ,生物 学 家 需要 根据 各 种 生物 不 同 的 属性 特征 对 生物 进行 分 类 。 在 人 口 学 研究 中 , 需 
要 构造 人 口 剩余 分 类 模式 ,人 口 死亡 分 类 情况 ,以 此 来 研究 人 口 的 生育 和 死亡 规律 。 

聚 类 分 析 内 容 非 常 丰富 ,最 常用 的 是 系统 聚 类 法 。 系 统 聚 类 法 的 基本 思想 : 先 视 n 个 
样品 各 自 为 一 类 ,然后 每 次 将 具有 最 小 距离 的 两 类 合并 成 一 个 新 类 ,计算 合并 后 的 类 间距 ， 
重复 这 一 过 程 , 直 到 所 有 样品 归 成 一 类 为 止 。 

系统 聚 类 方法 分 为 最 短 距离 法 、 最 长 距离 法 .中 间距 离 法 .重心 法 .类 平均 法 .可 变 类 平 
均 法 .可 变法 \ 离 差 平方 和 法 (Ward 法 ) 。 

R 软件 及 其 相关 包 提 供 了 各 种 聚 类 方法 ,其 中 系统 聚 类 的 程序 语句 如 下 : 


hclust(d, method = "complete", members = NULL) 

其 中 ,d 为 距离 计算 方法 ,包括 绝对 值 距离 . 欧 氏 距 离 . 切 比 雪 夫 距 离 . 马 氏 距 离 . 兰 氏 距 
离 等 ,默认 为 欧 氏 距离 ; method 包括 ward( 离 差 平 方 和 法 ) .single( 最 短 距 离 法 ) , complete 
(最 长 距离 法 ) average( 类 平均 法 ) ,median( 中 间距 离 法 ) 及 centroid( 重 心 法 )。 

由 于 语言 的 系统 聚 类 函数 选项 较 多 , 现 编制 一 个 简便 的 函数 进行 快速 聚 类 分 析 。 程 
序 语句 如 下 : 


H. clust <- function(x, d= "euclidean", method = "complete", process = CF, plot = T) 


其 中 ,x 是 数据 框 或 数值 矩阵 ; d 为 距离 计算 方法 (同上 ); method 为 系统 聚 类 方法 ( 同 
E); process 为 是 否 输出 聚 类 过 程 ; plot 为 是 否 输出 树 状 图 。 

下 面 是 一 个 聚 类 分 析 实 证 ,利用 R 通过 系统 聚 类 法 对 2012 年 全 国 31 个 省 TH AA 
的 居民 收入 与 消费 水 平 进行 分 类 。 样 本 数据 来 自 国泰 安 CSMAR 数据 库 ,选取 2012 年 居民 
收入 与 消费 数据 为 研究 对 象 ,包括 农村 居民 消费 水 平城 镇 居民 消费 水 平城 镇 居民 家 庭 平 
均 每 人 全 年 总 收入 、 农 村 居民 家 庭 平 均 每 人 全 年 纯 收 入 ,城镇 居民 消费 支出 ,农村 居民 消费 
支出 \ 城 乡 储 蓄 数 据 。 数 据 的 具体 下 载 步 又 见 附录 一 。 

R 语言 程序 如 下 : 


> 
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# 导 人 数据 

> install. packages( 'xlsx') 

> library(xlsx) 

> juldata <- read. xlsx("C:\\Users\\min. 1i\\Documents\\data. xlsx",1, header = T) 
>x<- juldata[,c(4:10)] 

# 标记 列 名 

> row. names(x)< 一 c(" 北 京 ", "RÆ", "河北 ", "山西 ", "内 蒙古 ", "辽宁 ", "吉林 "， 

"RÈI", "上 海 ", "江苏 ", "浙江 ", "安徽 ", "福建 ", "江西 ", "山东 ", "河南 ", "湖北 ", "湖南 ", "广东 "," 
广西 ", "海南 ", "重庆 ", "四 川 ", "贵州 ", "云南 ", "西藏 ", "陕西 ", "甘肃 ", "青海 ", "宁夏 ", "新 疆 ") 
# 计算 标准 化 后 的 距离 

>d<- dist(scale(x)) 

# 离 差 平方 和 法 

> y<- hclust(d, ward") 

> plot(y, hang= - 1) 


得 到 的 聚 类 图 如 图 6. 1 所 示 。 
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根据 离 差 平方 和 法 聚 类 分 析 得 到 的 树 状 图 ,可 以 得 到 如 下 几 种 分 类 。 从 我 国 各 省 \ 市 、 
自治 区 的 消费 情况 来 看 ,分 为 三 类 比较 合适 ,如 表 6.5 所 示 。 
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表 6.5 按 类 整理 聚 类 结果 


分 类 第 一 类 第 二 类 第 三 类 
新 疆 青海 海南 宁夏 西藏 
pem PK 浙江 贵州 甘肃 内 蒙古 重庆 吉林 安徽 湖北 湖南 河北 河南 
z 4 d 黑龙 江 江西 山西 陕西 四 川 天 津 辽宁 福建 
广西 云南 
第 一 类 第 二 类 第 三 类 第 四 类 
新 疆 青海 海南 
宁夏 西藏 贵州 
分 四 类 " 广东 浙江 甘肃 内 蒙古 m| 安徽 湖北 湖南 
北京 bi 河北 河南 四 川 
江苏 山东 庆 吉林 黑龙 江 | 天 津 辽宁 福建 
江西 山西 陕西 i 
广西 云南 
第 一 类 | 第 二 类 第 三 类 第 四 类 第 五 类 第 六 类 
sm un 
分 六 类 | 北京 | 广东 浙江 | 海南 宁夏 | “江西 | 安徽 湖北 湖南 cora 
上 海 “| 江苏 山东 | ”西藏 SUM 河北 河南 四 川 = 
陕西 广西 
甘肃 E 
云南 
从 表 6.5 可 以 看 出 ,北京 上海 广东, 浙江、 江苏 和 山东 等 地 的 居民 收入 和 消费 水 平 要 
明显 优 于 其 他 省 .市 .自治 区 ,而 西部 地 区 收入 和 消费 水 平 比 较 低 ,这 和 经 济 水 平 是 相 一 致 


的 。 较 高 的 经 济 水 平 可 以 提高 居民 的 收入 和 消费 水 平 ,所 以 必须 注重 经 济 的 发 展 。 由 以 上 
实证 分 析 可 以 看 出 ,利用 R 软件 可 以 简单 方便 地 实现 系统 聚 类 分 析 , 而 且 还 根据 不 同 的 情 
况 编写 程序 ,实现 一 些 特殊 的 分 析 功 能 。 

6.3.4 主 成 分 分 析 

主 成 分 分 析 也 称 为 主 分 量 分 析 , 是 指 通过 数据 分 析 寻 求 使 用 较 少 的 变量 去 解释 原来 数 
据 中 的 大 部 分 变异 的 一 种 统计 分 析 方 法 。 它 是 由 Person(1901) 提出 ,后 来 被 Hotelling 
(1933) 发 展 起 来 的 。 主 成 分 分 析 就 是 从 事物 错综复杂 的 关系 中 找 出 部 分 主 成 分 进行 定量 分 
析 , 从 而 实现 降 维 和 简化 的 作用 。 

R 语言 主 成 分 分 析 的 程序 语句 如 下 : 

princomp(x,cor- FALSE, scores = TRUE, -) # + AQ4}4} 67 RAK 

其 中 ,x 为 数据 矩阵 ;cor 为 是 否 用 相关 阵 , 默认 为 协 差 阵 ， scores 为 是 否 输出 成 分 
得 分 。 

screeplot(obj, type = c("barplot","lines"),..) # 碎 石 土 函数 

其 中 ,obj 为 主 成 分 分 析 对 象 ; type 为 图 形 类 型 。 

下 面 利用 RR 通过 主 成 分 分 析 方法 对 6. 3. 2 节 中 来 自 CSMAR 数据 库 的 2012 年 全 国 31 
个 省 .市 .自治 区 的 居民 收入 与 消费 水 平 进行 评分 。 
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R 语言 程序 如 下 : 


# 主 成 分 分 析 函 数 
> pca = princomp(scale(x),cor = T) 
> summary(pca, loadings = T) 
Importance of components: 
Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 
Standard deviation 2.2080698 1.3315395 0.45193423 0.258239995 0.18571101 
Proportion of Variance 0.6965103 0.2532853 0.02917779 0.009526842 0.00492694 
Cumulative Proportion 0.6965103 0.9497956 0.97897343 0.988500272 0.99342721 
Comp. 6 Comp. 7 
Standard deviation 0.158231094 0.144818639 
Proportion of Variance 0.003576726 0.002996063 
Cumulative Proportion 0.997003937 1.000000000 


Loadings: 

Comp.1 Comp.2  Comp.3 Comp.4 Comp. 5 Comp.6 Comp.7 
Incol002 -0.409 -0.286 -0.345 0.468 0.330 0.549 
Inco1003 -0.418 -0.241 0.280 -0.477 0.394 -0.337 -0.438 
Inco0202 -0.425 -0.225 —0.342 -0.752 0.293 


Inco0301 -0.411 -0.262 -0.329 0.656 -0.151 -0.387 -0.227 
Inco0904 - 0.366 0.408 0.445 -0.418 0.559 

Inco0903 - 0.190 0.643 -0.640 -0.317 -0.138 -0.143 

Inco0101 - 0.373 0.402 0.293 0.339 0.168 0.590 一 0.351 


由 结果 可 以 看 出 ,第 一 个 主 成 分 的 方差 贡献 率 为 69. 65% ,第 二 个 主 成 分 的 方差 贡献 率 
为 25. 33.% ,前 两 个 主 成 分 的 累计 方差 贡献 率 为 94. 98% ,另外 的 5 个 主 成 分 可 以 舍 去 。 


* ini EA A (Wl 6.2 所 示 ) 


> screeplot(pca, type = "line", main = 


RAR") 


Variances 


0 
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 


图 6.2 RAR 


大 数据 分 析 : R 基 础 及 应 用 


碎 石 图 是 一 种 可 以 帮助 确定 主 成 分 合适 个 数 的 有 用 的 视觉 工具 ,将 特征 值 从 大 到 小 排 
列 。 从 碎 石 图 中 同样 可 以 看 出 ,前 两 个 主 成 分 的 累积 方差 贡献 率 已 经 占 了 较 大 比重 ,所 以 选 
取 两 个 主 成 分 。 


# 计算 前 两 个 主 成 分 得 分 

> s1 = pea $ scores[1:31,1] 

> s2 = pea $ scores[1:31,2] 

# 计算 综合 得 分 

>c=( 0.6965 * s1 + 0.2533 * s2)/( 0.6965 + 0.2533) 
# 排 序 

>r= rank(c) 

> cbind(s1,s2,c,r) 


通过 提取 前 两 个 主 成 分 ,计算 各 个 省 市、 自治 区 的 得 分 ,可 以 给 出 它们 科技 发 展 水 平 的 
一 个 排名 。 从 表 中 结果 可 以 看 出 ,上 海 第 一 ,北京 第 二 ,浙江 第 三 ,广东 .江苏 和 天 津 紧 随 其 
后 ,都 属于 第 一 梯队 。 这 些 地 区 都 是 经 济 发 展 水 平 排 在 全 国 前 列 的 。 排 在 最 后 的 基本 上 都 
是 经 济 相对 落后 的 西部 地 区 ,科技 发 展 水 平 也 比 其 他 地 区 要 低 。 主 成 分 分 析 得 分 及 排名 如 
表 6.6 所 示 。 


表 6.6 主 成 分 分 析 得 分 及 排名 


地 区 sl s2 c r 
北京 —4, 088524 — 2. 506376 — 3. 666585 2 
xm — 1.541813 — 2.449816 —1. 783967 6 
河北 0. 2235620 1.3305248 0.5187754 15 
山西 1.2281585 0. 1494170 0. 9404714 22 
内 蒙古 0.6320788 —0. 792218 0. 2522362 10 
辽宁 — 0. 847345 — 0. 009200 — 0. 623822 9 
w 1.0537860 —0. 530619 0.6312445 17 
黑龙 江 1. 1592341 一 0.052002 0. 8362123 19 
上 海 一 5.575225 —3. 136581 —4. 924868 1 
江苏 —3. 428374 1.5847985 —2. 091422 5 
浙江 一 4. 163469 0. 0703022 一 3.034374 3 
安徽 0. 8075467 0. 5575598 0.7408783 18 
福建 一 0.753069 —0. 629552 —0. 720129 8 
江西 1.1194688 0. 1962514 0. 8732581 21 
山东 一 1.983709 2. 3148333 一 0. 837340 7 
河南 0. 1446742 1. 8509641 0. 5997209 16 
湖北 0. 3970400 0. 6153339 0. 4552563 11 
湖南 0. 3695942 0. 9125549 0. 5143952 14 
广东 —4. 530909 2. 9720216 —2. 529970 4 
广西 1. 2094716 0. 2109302 0. 9431729 23 
海南 1.8359584 —1. 078039 1. 0588310 24 
重庆 0. 8362220 一 0. 510601 0. 4770407 12 
四 川 —0.006544 1.8651337 0. 4926088 13 
贵州 2. 1699437 0. 0307301 1.5994417 29 
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续 表 
地 区 sl s2 c r 
云南 1.3515005 0. 3334030 1. 0799865 26 
西藏 2. 8858787 一 0.758998 1.9138348 31 
陕西 1. 1290203 0. 0904629 0. 8520499 20 
甘肃 2. 3947925 一 0.087834 1.7327064 30 
青海 2. 3542706 一 0.927091 1.4791715 28 
宁夏 1, 8669094 一 1. 147052 1. 0631228 25 
新 疆 1.7498761 —0. 469234 1.1580665 27 


主 成 分 分 析 方 法 是 一 种 能 够 降低 和 减少 各 指标 之 间 的 信息 元 余 , 简 化 问题 的 结构 ,提高 
问题 分 析 的 效率 定量 分 析 方法 。 借 助 R 软件 可 以 方便 快捷 地 实现 对 实际 问题 的 主 成 分 分 
析 计 算 。 


6.3.5 因子 分 析 


因子 分 析 是 从 Charles Spearman 在 1904 年 发 表 的 文章 (对 智力 测验 得 分 进行 统计 分 
析 》 开 始 , 他 提出 这 种 方法 用 来 解决 智力 测验 得 分 的 统计 方法 。 目 前 因子 分 析 在 心理 学 、 社 
会 学 .经济 学 等 学 科 中 都 取得 了 成 功 的 应 用 ,是 多 元 统计 分 析 中 的 典型 方法 之 一 。 

因子 分 析 和 主 成 分 分 析 一 样 是 一 种 降 维 、 简 化 数据 的 技术 。 它 从 研究 变量 内 部 相关 的 
依赖 关系 出 发 ,探求 观测 数据 中 的 基本 结构 ,并 用 少数 几 个 “抽象 ”的 变量 来 表示 其 基本 的 数 
据 结 构 。 这 几 个 抽象 的 变量 被 称 作 “ 因 子 ”, 能 反映 原来 众多 变量 的 主要 信息 。 因 子 分 析 主 
要 用 来 描述 隐藏 在 一 组 可 以 测量 到 的 变量 中 的 一 些 更 根本 的 ,但 又 无 法 直接 测量 到 的 隐 性 
变量 。 

因子 分 析 的 数学 模型 ; 

X; — anFitaaFi + panata Go 52; 
其 中 OF, Py ,… Fn 称 为 公共 因子 ,si 称 为 Xi 的 特殊 因子 ,该 模型 可 用 和 矩阵 表示 为 : 


X=AF +e 
其 中 
an ax aim 
A= | t- "| (A, Ags AL) 
Api dp Apm 
X, F, €, 
X. F. € 
x-|^"L.r- | °|, =|” 
X, F; £5 


模型 中 的 a; 称 为 因子 “载荷 ”, 是 第 i 个 变量 在 第 j 个 因子 上 的 负荷 ,如 果 把 变量 X; 看 
Rmn 维 空间 中 的 一 个 点 ,那么 a; 表示 它 在 坐标 轴 下 ; 上 的 投影 ,因此 算 阵 A 称 为 因子 载荷 
R 语言 对 矩阵 进行 极 大 似 然 因子 分 析 的 程序 语句 如 下 : 
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factanal(x, factors, scores = c("none", "regression", "Bartlett"), rotation = "varimax", .. 


其 中 ,x 2 RH HO BE; factors 为 因子 个 数 ; scores 为 因子 得 分 的 计算 方法 ,包括 
regression 和 Bartlett 方法 ; rotation 为 因子 旋转 方法 。 
下 面 利用 R 通过 因子 分 析 方 法 对 6. 3. 4 节 中 来 自 CSMAR 数据 库 的 2012 年 全 国 31 
个 省 市、 自治 区 的 居民 收入 与 消费 水 平 进行 评分 。 


R 语言 程序 如 下 : 
# 计算 相关 系数 矩阵 
> cor(x) 
Incol002 Incol003 Inco0202 Inco0301 Inco0904 | Inco0903 
Incol002 1.0000000 0.93610636 0.9508626 0.9634380 0.4925974 0.09531430 
Incol003 0.9361064 1.00000000 0.9623606 0.9131647 0.5922177 0.08743624 
Inco0202 0.9508626 0.96236056 1.0000000 0.9400107 0.5958519 0.14100959 
Inco0301 0.9634380 0.91316472 0.9400107 1.0000000 0.5190463 0.11221110 
Inco0904 0.4925974 0.59221768 0.5958519 0.5190463 1.0000000 0.74322330 
Inco0903 0.0953143 0.08743624 0.1410096 0.1122111 0.7432233 1.00000000 
Inco0101 0.5203417 0.59438626 0.6054109 0.5493496 0.9727392 0.75584921 
Inco0101 
Incol002 0.5203417 
Incol003 0.5943863 
Inco0202 0.6054109 
Inco0301 0.5493496 
Inco0904 0.9727392 
Inco0903 0.7558492 
Inco0101 1.0000000 


由 结果 可 以 看 到 变量 间 的 相关 性 较 强 ,可 以 通过 因子 分 析 降 维 、 简 化 数据 。 它 从 研究 变 
量 内 部 相关 的 依赖 关系 出 发 ,探求 观测 数据 中 的 基本 结构 ,并 用 少数 几 个 “抽象 ”的 变量 来 表 


示 其 基本 的 数据 结构 。 这 几 个 抽象 的 变量 被 称 作 ”因子 ”, 能 反映 原来 众多 变量 的 主要 


先 提取 两 个 因子 ,代码 及 结果 如 下 : 


BAL. 


Call: 


Uniquenesses: 


# 极 大 似 然 法 进行 因子 分 析 


> FAO = factanal(x, 2, rot = "none") 


.551 
.457 
.461 
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.403 
.675 


Loadings: 

Factorl Factor2 
Incol002 0.809 0 
Incol003 0.853 0 
Inco0202 0.867 0 
Inco0301 0.820 0. 
Inco0904 0.894 -0 
Inco0903 0.533 -0 


0.038 


factanal(x = x,factors = 2, rotation = "none") 


0.261 0.015 


Inco1002 Incol003 Inco0202 Inco0301 Inco0904 Inco0903 Inco0101 
0.042 0.063 0.036 0.068 


= Rum 
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Inco0101 0.910 -0.395 
Factorl Factor2 
SS loadings 4.720 1.757 
Proportion Var 0.674 0.251 
Cumulative Var 0.674 0.925 
Test of the hypothesis that 2 factors are sufficient. 
The chi square statistic is 21.59 on 8 degrees of freedom. 
The p- value is 0. 00573 


rid FR DL th, n PAIR DAI ERE 77 28 DT HAR AY 86.5%. p-value 也 很 显著 ,基本 上 能 


反映 所 有 指标 信息 ,但 各 个 因子 的 现实 意义 并 不 明显 ,对 因子 进行 旋转 。 
# 因子 旋转 
> FAC = factanal(x, 2, rot = "varimax" 
Call: 
factanal(x = x, factors = 2, rotation = "varimax") 
Uniquenesses: 


Inco1002 Incol003 Inco0202 Inco0301 Inco0904 Inco0903 Inco0101 
0.042 0.063 0.036 0.068 0.038 0.261 0.015 

Loadings: 

Factorl Factor2 
Incol002 0.970 0.132 
Incol003 0.940 0.232 
Inco0202 0.953 0.238 
Inco0301 0.950 0.171 
Inco0904 0.395 0.898 
Inco0903 0.858 
Inco0101 0.412 0.903 

Factorl Factor2 

SS loadings 3.963 2.514 
Proportion Var 0.566 0.359 
Cumulative Var 0.566 0.925 
Test of the hypothesis that 2 factors are sufficient. 
The chi square statistic is 21.59 on 8 degrees of freedom. 
The p- value is 0.00573 


从 上 述 结果 可 以 看 出 ,旋转 后 的 因子 载荷 发 生 了 改变 ,各 因子 代表 的 实际 意义 也 变 得 明 
显 ,如 表 6.7 所 示 。 
表 6.7 旋转 后 的 因子 载荷 


公共 因子 
变量 名 
Factor1 Factor2 
Inco1002 0.970 0.132 
Inco1003 0.940 0.232 
Inco0202 0.953 0.238 
Inco0301 0.950 0.171 
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续 表 
公共 因子 
变量 名 
Factor1 Factor2 
Inco0904 0.395 0.898 
Inco0903 0.858 
Inco0101 0.412 0.903 


因子 Fl 代表 变量 Incol002, Incol003, Inco0202 和 Inco0301, 因子 F2 代表 变量 
Inco0904,Inco0903 和 Inco0101。 下 面 计算 因 子 得 分 ， 


# 计算 因子 得 分 


> Fac = factanal(x, 2, scores = "regression") 


然后 根据 累计 方差 贡献 率 计 算出 每 个 城市 的 得 分 : 


# 排序 


> r2 = rank( - F) 
> cbind(f1, £2, F, r2) 


# 计 算 每 个 地 区 得 分 

> f1 = Fac $ scores[,1] 
> £2 = Fac $ scores[,2] 
>F = (0.566 * f1 + 0.359 x £2)/0.925 


因子 分 析 得 分 及 排名 如 表 6.8 所 示 。 


表 6.8 因子 分 析 得 分 及 排名 
地 区 fl f2 f3 r 
北京 2. 4165348 一 0.319547 1.3546391 3 
天 津 1.5344477 一 1.281083 0. 4417171 7 
河北 — 0. 656002 0. 9545618 — 0. 030929 11 
山西 一 0.531985 一 0.010777 — 0. 329700 19 
内 蒙古 0. 0427425 一 0. 644991 一 0.224172 15 
辽宁 0. 2172215 0. 4045423 0. 2899222 8 
* — 0. 227706 —0. 560420 —0. 356835 20 
黑龙 江 一 0.503889 —0. 194656 — 0, 383873 21 
上 海 3. 2983506 一 0.675108 1.7562189 1 
江苏 0.7849045 1. 5744445 1.0913313 Š 
浙江 1. 6774332 0.7359554 1. 3120380 4 
安徽 —0. 493629 0.1023413 —0. 262328 16 
福建 0. 6606102 一 0.470533 0. 2216042 9 
江西 一 0. 465407 一 0.257150 一 0.384581 22 
山东 一 0.021432 1. 5742125 0. 5978505 6 
河南 —0. 687195 0. 8476884 — 0. 091494 12 
湖北 一 0.377250 0. 2481883 一 0. 134512 13 
湖南 一 0. 421096 0. 2433530 一 0. 163218 14 
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续 表 
地 区 fl f2 £3 r 
广东 0. 3081096 3. 5482471 1.5656332 Š 
广西 —0. 491941 —0. 256308 — 0. 400490 23 
海南 一 0.287809 —1. 042587 —0. 580744 26 
重庆 —0.179616 — 0. 394840 — 0. 263146 17 
四 川 — 0.572151 0. 8850139 — 0. 006613 10 
贵州 —0. 824072 —0. 487953 —0. 693621 28 
云南 一 0.537626 一 0.284571 — 0. 439413 24 
西藏 一 0.865609 一 0.973285 一 0. 907399 31 
陕西 —0. 493812 —0.066407 —0. 327933 18 
甘肃 一 0.912643 一 0.482074 一 0.745536 30 
青海 — 0. 549940 — 1.029716 —0. 736145 29 
宁夏 一 0.297848 一 1.080554 一 0.601622 27 
新 疆 一 0.541687 — 0. 605981 —0. 566640 25 


通过 提取 因子 ,计算 各 个 省 .市 自治 区 的 得 分 ,也 得 到 它们 居民 收入 与 消费 水 平 的 一 个 
排名 ( 见 表 6. 8)。 可 以 看 到 结果 与 主 成 分 分 析 的 结果 是 一 致 的 ,也 进一步 验证 了 结果 的 正 
确 性 。 

因子 分 析 方 法 是 一 种 定量 的 测量 方法 ,能 够 降低 和 减少 各 指标 之 间 的 信息 宛 余 ,简化 问 
题 的 结构 ,提高 问题 分 析 的 效率 ,同时 也 是 一 种 可 行 有 效 的 综合 评价 方法 。 借 助 R 软件 可 
以 方便 快捷 地 用 因子 分 析 方 法 对 实际 问题 进行 分 析 计 算 。 


6.3.6 典型 相关 分 析 


典型 相关 分 析 (Canonical Correlation Analysis) 就 是 利用 综合 变量 对 之 间 的 相关 关系 
来 反映 两 组 指标 之 间 整 体 相关 性 的 多 元 统计 分 析 方 法 。 它 的 基本 原理 是 为 了 从 总 体 上 把 握 
两 组 指标 之 间 的 相关 关系 ,分 别 在 两 组 变量 中 提取 有 代表 性 的 两 个 综合 变量 Ul 和 Vi( 分 别 
为 两 个 变量 组 中 各 变量 的 线性 组 合 ) ,利用 这 两 个 综合 变量 之 间 的 相关 关系 来 反映 两 组 指标 
之 间 的 整体 相关 性 。 
数学 描述 : 
考虑 两 组 变量 的 向 量 Z= (Xi «Xo ota Xp Ya Vo set .Y,) ,其 协 方差 阵 为 ; 
5- E. xu 
Der 7322 
b q 
其 中 >)11 是 第 一 组 变量 的 协 方差 矩阵 ，>)22 是 第 二 组 变量 的 协 方差 矩阵 ，>)12 = 


2》)21 是 XX 和 YY 的 协 方差 矩阵 .那么 两 组 变量 的 第 一 对 线性 组 合 为 : 
Wadi p = 8 Y 


q 


其 中 


/ 
al = (all az sap) 
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by = Gn sb ba 
Var(U,) = a, Var(X)a, = ai 214 =1 
Var(V,) = bi VarQY)b, =b, 9), b, = 1 
pu = Cov(U Vi) = a',Cov(X,Y)b, = a) >) ubi 
所 以 典型 相关 分 析 就 是 求 a, AL s ,使 得 pw 达到 最 大 。 
R 语言 中 进行 典型 相关 分 析 的 函数 如 下 : 
cancor( x, y, xcenter = TRUE, ycenter = TRUE) 
其 中 ,参数 X 和 了 表示 进行 相关 分 析 的 数据 ,为 向 量 或 矩阵 形式 ; xcenter 和 ycenter 
为 逻辑 变量 , 若 值 设置 为 TRUE, 表 示 将 数据 中 心 化 。 
下 面 是 一 个 在 R 环境 下 进行 相关 分 析 的 例子 ,数据 来 自 国泰 安 CSMAR 数据 库 , 选 取 


宏观 经 济 指标 (年 度 ) 下 拉 列 表 中 的 国内 生产 总 值 .工业 总 产值 数据 ,时 间 选 择 1996 ~ 
2012 4E, 


R 语言 程序 如 下 : 


# 导 入 数据 

> xgfxdata <- read. xlsx("C:\\Users\\min. 1i\\Documents\\xgfxdata. xlsx",1,header = T) 
> data<- juldata[,c(2,3)] 

>x<- data[,1] 

> y<- data[,2] 

> co <— cancor(x, y) # 典 型 相关 分 析 


$ cor # 典 型 相关 系数 
[1] 0.998242 
$ xcoef # 对 应 于 x 的 系数 或 关于 x 的 典型 载荷 


L1] 

[1,] 2.041814e- 06 
$ ycoef. 

L1] 
[1,] 1.03102e - 06 
$ xcenter #x 的 样本 均值 
[1] 196610 
$ ycenter 
[1] 279964.6 
# 计算 数据 在 典型 变量 下 的 得 分 
>U<- as.matrix(x) % * % co$ xcoef 
>V <- as.matrix(y) % * % co$ ycoef 
# 画 出 变量 散 点 图 
plot(U, V, xlab = "U", ylab = "V") 
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由 图 6.3 可 以 看 出 ,典型 相关 变量 呈 线 性 相关 关系 ,表明 国内 生产 总 值 和 工业 总 产值 呈 
较 强 的 线性 相关 性 。 


0.8r 


0.2 0.4 0.6 0.8 
U 


图 6.3 典型 相关 变量 散 点 图 
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HF R 具备 很 多 金融 计量 研究 领域 的 包 ,使 得 没有 编程 经 验 的 金融 从 业 人 员 进 行 数 据 
分 析 工 作 变 得 更 为 简单 。 本 章 将 以 具体 的 案例 作为 线索 ,利用 R 语言 来 实现 整个 金融 数据 
的 分 析 过 程 。 


7.1 金融 时 间 序 列 


时 间 序 列 指 的 是 指标 按照 时 间 顺 序 将 对 应 的 数值 排列 的 数列 。 时 间 序 列 分 析 理 论 是 由 
Andei Kolmogonor 在 1930 年 提出 的 , 随 着 人 们 对 时 间 序 列 问 题 的 研究 ,使 得 该 理论 得 到 发 
展 和 完善 。 时 间 序 列 分 析 是 一 种 动态 的 统计 方法 ,该 方法 的 大 概 思 想 是 根据 已 有 的 历史 数 
据 预测 未 来 时 间 点 上 的 数值 ,进而 得 到 时 间 序 列 变化 的 规律 。 而 金融 时 间 序 列 指 的 是 在 某 
个 时 期 内 按照 时 间 顺 序 进 行 排列 的 金融 随机 变量 ,主要 研究 资产 价值 随时 间 变 化 的 相关 理 
论 及 应 用 。 金 融 时 间 序 列表 现 出 较 强 的 非 线 性 、 自 相关 性 、 异 方差 性 及 随机 性 等 。 

对 时 间 序 列 建立 模型 之 前 需要 进行 时 间 序 列 预 处 理 , 即 对 序列 进行 平稳 性 检验 及 纯 随 
机 性 检验 。 

平稳 性 是 时 间 序 列 分 析 的 基础 ,是 进行 时 间 序 列 分 析 得 到 准确 预测 结果 的 前 提 。 平稳 
性 确保 了 时 间 序 列 的 结构 不 随时 间 的 变化 而 改变 。 如 果 时 间 序 列 {y,} 满 足以 下 条 件 , 那 么 
该 时 间 序 列 是 平稳 的 。 

CD 时 间 序 列 的 均值 函数 E(y,) 二 ,其 中 为 常数 (与 71 无关); 

(2) 时 间 序 列 的 方差 函数 D(y,) 二 02 ,其 中 oz 为 常数 (与 1 无 关 ); 

(3) 时 间 序 列 的 协 方差 cov Cy, «y — Y, Kr y, 29 5 E n8] [8] Br e 相关 而 与 时 间 1 无 关 
的 常数 。 

通常 平稳 性 检验 采用 以 下 两 种 方法 : 

(1) 图 检验 方法 , 即 根据 时 序 图 及 自 相关 图 进行 检验 。 

时 序 图 指 的 是 一 个 以 时 间 为 横 坐标 ,与 时 间 对 应 的 数值 为 纵 坐 标的 二 维 图 。 如 果 时 间 
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序列 平稳 ,那么 时 序 图 表现 为 在 某 一 个 常数 水 平 有 相似 的 幅度 波动 且 波 动 的 范围 是 有 界 的 。 
而 自 相 关 图 是 一 个 平面 二 维 坐标 悬垂 线 图 。 如 果 时 间 序 列 平稳 ,那么 由 于 平稳 序列 一 般 有 
短期 的 自 相关 性 , 自 相 关系 数 会 随 着 延迟 期 数 的 增加 以 较 快 的 速度 衰减 到 0, 反之 自 相 关系 
数 衰减 到 0 的 速度 会 比较 慢 。 

(2) 统计 检验 方法 , 即 构造 检验 统计 量 进行 检验 。 

一 般 采 用 的 统计 检验 方法 是 单位 根 检验 ,该 方法 检验 时 间 序 列 平稳 性 的 准则 是 判断 特 
征 根 是 否 在 单位 圆 内 , 若 特 征 根 在 单位 圆 内 , 则 为 平稳 序列 。 

当时 间 序 列 通 过 平稳 性 检验 ,对 非 平 稳 性 序列 进行 平稳 化 处 理 后 便 可 以 建 模 ,进行 时 间 
序列 分 析 。 

下 面 运 用 R 进行 时 间 序 列 的 平稳 性 检验 ,样本 数据 来 自 国泰 安 CSMAR 数据 库 , 选 取 
2005-1-4 一 2005-12-30 上 证 综合 指数 (000001) 的 收盘 价格 指数 为 研究 对 象 。 


# 0. 初始 化 
> setwd( 'E:/R— modeling/Chapter07/data') 
# 1. 读 取 数 据 
> library(RODBC) # 加 载 包 
> WH_data <— odbcConnectExcel("000001. xls") 
> WH.CZCE«- sqlFetch(WH_data, "000001data") # 读 取 Excel 数据 
> Data. Clpr <- data. frame(WH.CZCE[,2],WH.CZCE[,6]) # A 38, Vc fc ffr 
> head( Data. Clpr) 
Date Clpr 
1 2005-01-04 1242.774 
2 2005-01-05 1251.937 
3 2005-01-06 1239.430 
4 2005-01-07 1244.746 
5 2005-01-10 1252.401 
6 2005-01-11 1257.462 
» tail(Data.Clpr) 
Date Clpr 
237 2005-12-23 1144.871 
238 2005-12-26 1156.823 
239 2005-12-27 1154.288 
240 2005-12-28 1157.034 
241 2005-12-29 1169.862 
242 2005-12-30 1161.057 
» plot. ts(Date, Clpr, type - "1") = 收盘 价 时 间 序 列 图 


由 图 7. 1 可 以 看 出 ,收盘 价 的 波动 幅度 较 大 ,显示 非 平稳 特性 。 图 检验 方法 是 一 种 简便 
的 平稳 性 检验 方法 ,其 缺点 是 具有 一 定 的 主观 性 ,因而 得 到 的 判别 结果 不 能 确保 正确 性 ,所 
以 通常 采用 单位 根 检验 的 方法 进行 平稳 性 的 判定 。 
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7.1 收盘 价 时 间 序 列 图 


> library(tseries) 

> adf. test(Clpr) # 收盘 价 序列 平稳 性 检验 , ADF 检验 
Augmented Dickey - Fuller Test 

data: Clpr 

Dickey- Fuller = - 1.5878, Lag order = 6, p-value = 0.7493 

alternative hypothesis: stationary 


单位 根 检 验 表 明 , 在 5% 置 信 水 平 下 ,p 一 value = 0. 749370. 05 ,接受 原 假设 ,表明 收 
盘 价 指数 序列 存在 非 平稳 性 。 所 以 需要 对 时 间 序 列 进行 处 理 以 消除 非 平稳 性 ,一般 的 方法 
是 对 原始 数据 先 取 对 数 ,然后 进行 差分 ,从 而 得 到 具有 稳定 性 的 对 数 收益 率 时 间 序 列 
( 见 图 7.2)。 
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图 7.2 对 数 收益 率 时 间 序列 图 


> adf.test(returns) 

Augmented Dickey - Fuller Test 

data: returns 

Dickey- Fuller = -5.9975, Lag order = 6, p-value = 0.01 
alternative hypothesis: stationary 
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单位 根 检验 表明 ,在 5% 显著 性 水 平 下 ,p 一 value = 0. 01<0. 05 ,拒绝 原 假设 ,表明 对 
数 收益 率 时 间 序列 平稳 。 


7.2 ARMA 模型 


ARMA 模型 (Auto-Regressive and Moving Average Model) 是 研究 时 间 序 列 的 重要 方 
法 ,也 是 目前 最 常用 的 时 间 序 列 分 析 模 型 。ARMA 模型 是 以 自 回 归 模 型 (AR 模型 ) 和 滑动 
平均 模型 (MA 模型 ) 为 基础 “混合 ”而 成 的 。 


7.2.1 ARMA 模型 简介 


ARMA 模型 具有 以 下 三 种 基本 形式 : 
1. AR 模型 
自 回归 模型 AR(p): 如 果 时 间 序 列 w 满足 
yx = Pry to + B,y=, +e, 
Herp e, 是 独立 同 分 布 的 随机 变量 序列 , 且 满足 : 
Ele) = 0, Varle,) =o > 0 
则 称 时 间 序 列 为 w 服从 p 阶 的 自 回归 模型 。 
2. MA 模型 
移动 平均 模型 MAQ): 如 果 时 间 序 列 y, 满足 
yx, = 6€ — ery — *** — OH 
则 称 时 间 序 列 y, HA q 阶 移动 平均 模型 。 
3. ARMA 混合 模型 
混合 模型 ARMA(p.g): 如 果 时 间 序 列 y, HA: 
Me = h yma e t + OY ip +e, — er — OE Ha 
则 称 时 间 序 列 为 w 服从 (p,q) 阶 自 回 归 滑 动 平均 混合 模型 。 
特殊 情况 : gq==0, 模 型 即 为 AR(p),p 二 0, 模 型 即 为 MA(g)。 


7.2.2 ARMA 模型 定 阶 


自 相关 函数 的 截 尾 阶 数 确定 MA 的 阶 数 gq, 偏 自 相关 函数 的 截 尾 阶 数 确定 AR 的 阶 数 
户 , 因 此 可 以 用 自 相 关 和 偏 自 相关 图 确定 ARMA(p,g) 的 阶 数 。 

1. 自 相关 

如 果 样 本 的 自 相 关系 数 (ACF) 在 滞后 g 十 1 阶 处 突然 截断 , 即 在 g 处 截 尾 ,那么 可 以 认 
为 该 序列 为 MA(g) 序 列 ( 见 图 7. 3)。 

2. 偏 自 相 关 

如 果 样 本 的 偏 自 相 关系 数 (PACF) 在 滞后 p 处 截 尾 , 那 么 可 以 判定 该 序列 为 AR(p) 序 
列 (图 7.4)。 

接着 7. 1. 1 节 对 平稳 性 的 收益 率 时 间 序 列 进行 建 模 分 析 。 


>acf(returns) 
> pacf (returns, lag = 50) 
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Series returns 


图 7.3 自 相关 函数 图 


图 7.3 自 相 关 函 数 图 的 横 轴 lag 表示 滞后 阶 数 , 纵 轴 表 示 对 应 各 阶 的 相关 系数 ,0 r l 
后 表示 对 自己 的 自 相 关系 数 ,所 以 一 般 对 应 的 相关 系数 值 为 1。 图 中 上 下 的 虚线 内 为 95% 
置信 区 间 , 若 lag>0 对 应 的 相关 系数 均 在 该 区 间 内 则 表示 该 变量 自 相 关 性 问题 不 严重 。 由 
自 相 关 图 可 以 看 出 序列 0 阶 自 相 关 , 因 此 MA 的 阶 数 q = 0. 
当 滞 后 期 取 lag=50 时 ,由 偏 自 相关 图 可 以 确定 p 二 8,16,24( 见 图 7.4). 


Series returns 


0.05 


Partial ACF 


~0.15 È 二 二 二 二 二 二 上 二 一 了 ~ 二 £ r r O 


Lag 
PA 7.4 偏 自 相关 函数 图 


7.2.3 ARMA 模型 拟 合 


> ARMAfit <- arma( returns, lag = list(ar = c(8, 16, 24) ,ma = NULL), series = "returns") 
> summary(ARMAfit) 
Call: 
arma(x = returns, lag = list(ar = c(8, 16, 24), ma = NULL), series = "returns" ) 
Model: 
ARMA(24,0) 
Residuals: 
Min 10 Median 30 Max 
—0.0334173  Á -0.0084237  Á—0.0003561 0.0062042 0.0773497 
Coefficient(s): 
Estimate Std. Error t value Pr(»|t|) 
ar8 0.2059246 0.0601006 3.426 0.000612 *** 
ari6 — 0.2006215 0.0593793 —3.379 0.000728 *** 
ar24 0.2291942 0.0592183 3.870 0.000109 *** 
intercept — 0. 0003592 0. 0008163 — 0.440 0.659935 
Signif. codes: 0 '*** '0.001 '** '0.01 '*'0.05 '.'0.1 "1 
Fit: 
sigma ^2 estimated as 0. 0001608, Conditional Sum- of - Squares = 0.03, AIC = - 1413.29 
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由 上 面 拟 合 结果 可 以 看 出 ,ar8,ar16,ar24 阶 系数 均 显著 ,因此 可 得 ARMA 模型 表达 式 
如 下 : 
f, =— 0. 00036 + 0. 20592r, 4 — 0. 20062r,-15 + 0. 22919,_,, 
带 入 相应 滞后 收益 率 即 可 实现 未 来 收益 率 的 预测 。 


7.3 GARCH 模型 


GARCH (Generalized ARCH) 即 广义 ARCH 模型 ,是 Bollerslev 在 1986 年 提出 的 。 
ARCH(Auto-Regressive Condition Heteroskedasticity) 模 型 即 自 回归 条 件 异 方差 模型 ,是 
Engle 在 1982 年 提出 的 ,是 一 种 典型 的 金融 时 间 序 列 波动 性 分 析 模 型 。 该 模型 具有 计算 时 
间 序 列 的 条 件 方差 的 特点 ,能 够 较 准 确 地 刻画 金融 时 间 序 列 的 特征 ,包括 波动 性 ,收益 率 的 
不 相关 性 等 。 但 ARCH 模型 要 求 条 件 方差 必须 为 正 值 ,因而 需要 更 具 一 般 适 用 性 的 模型 。 
GARCH 模型 是 根据 过 去 方差 及 其 预测 值 进行 方差 预测 的 ,对 波动 性 的 分 析 及 预测 具有 更 
好 的 效果 ,具有 广泛 的 理论 及 实际 应 用 价值 。 


7.3.1 GARCH 模型 简介 


一 般 的 GARCH 模型 可 以 表示 为 
n-at Darn + Ssn 十 0 Seu 
= = 
0, = u, Jh, (7-2) 
h, = k + onc + DAI, (7-3) 


其 中 ,h, 为 条 件 方差 ,w 为 独立 同 分 布 的 随机 变量 ,h, 与 w 互相 独立 ,uw 为 标准 正 态 分 
布 。 式 (7-1) 称 为 条 件 均值 方程 ; 式 (7-3) 称 为 条 件 方差 方程 ,说 明 时 间 序 列 条 件 方差 的 变 
化 特征 。 


7.3.2. GARCH 模型 拟 合 


GARCH(1,1) 模 型 是 GARCH 模型 中 简单 且 应 用 广泛 的 一 个 模型 。 运 用 R 对 7.1.1 
节 中 的 收益 率 时 间 序 列 进行 建 模 分 析 如 下 : 


> library(fGarch) 

> Garchfit <- garchFit(~ garch(1,1), data = returns) 
> summary(Garchfit) 

Title: 

GARCH Modelling 

Call: 

garchFit(formula = ~garch(1, 1), data = returns) 
Mean and Variance Equation: 

data ~ garch(1, 1) 

< environment: 0x054fe368 > 

[data = returns] 
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Conditional Distribution: 


norm 
Coefficient(s): 

mu omega alphal betal 
1.4177e- 04 1.9869e-06 1.8400e- 02 9.6909e-01 
Std. Errors: 


based on Hessian 
Error Analysis: 

Estimate Std. Error t value Pr(»|t|) 
mu 1.418e- 04 1.000e- 03 0.142 0.887 
omega 1.987e— 06 4.682e- 06 0.424 0.671 
alphal 1.840e- 02 2.035e- 02 0.904 0.366 
betal 9.691e- 01 2.049e- 02 47.288 <2e-16 * * * 
Signif. codes: O '* * *'0.001 '* *'0.01 '*'0.05 '.'0.1''1 
Log Likelihood: 
693.9436 normalized: 2.879434 
Standardised Residuals Tests: 

Statistic p- Value 


Jarque - Bera Test R Chi^2 339.9752 0 
Shapiro- Wilk Test R W 0.9405965 2.579529e- 08 
Ljung - Box Test R Q(10) 11. 16604 0. 3447291 
Ljung - Box Test R Q(15) 13.49275 0.5642944 
Ljung ~ Box Test R Q(20) 20.06933 0.4536006 
Ljung - Box Test R^2 Q(10) 4.317861 0.9318706 
Ljung - Box Test R^2 Q(15) 6.802526 0.9628995 
Ljung- Box Test R^2 Q(20) 7.938161 0.992269 
LM Arch Test R TR^2 5.243007 0.9493658 
Information Criterion Statistics: 

AIC BIC SIC HQIC 


- 5.725673 - 5.667834 - 5.726212 - 5.702371 


IH GARCH 模型 可 以 获得 波动 率 序列 。 


> Valat«- volatility(Garchfit) 
> head(Valat) + 查看 前 6 个 波动 率 数 据 
[1] 0.01362099 0.01351810 0. 01345310 0. 01333020 0. 01322306 0. 01310385 


在 GARCH 模型 拟 合 时 ,可 以 通过 增设 参数 cond. dist = cC" norm". "snorm", "ged", 
"sged", "std", "sstd". ，"snig"，"QMLE") 实 现 不 同 分 布下 的 GARCH 模型 拟 合 ,如 正 态 分 
布 . 广 义 误差 分 布 . 偏 t 分 布 等 ,默认 状态 为 正 态 分 布 拟 合 。 由 上 面 拟 合 结果 可 以 得 到 波动 
率 预测 公式 : 

of = 0.000002 + 0. 018147? + 0. 969162 

GARCH 模型 常 被 用 作 股 市 价格 波动 性 分 析 , 由 计算 的 波动 率 可 以 进一步 分 析 股 市 波 

动 带 来 的 风险 影响 ,例如 可 以 进行 风险 价值 C(VaR) 的 计算 3E S23 F EH] VaR 值 为 : 
VaR, = Vko, 
将 GARCH 模型 计算 出 的 波动 率 代 入 上 式 , 即 可 实现 风险 价值 VaR 的 计算 。 
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如 果 仅 仅 是 分 析 横 截面 数据 或 者 时 间 序 列 数据 ,不 能 全 面 地 反映 复杂 的 经 济 现象 , 而 动 
态 面 板 数据 融合 了 截面 数据 和 时 间 序 列 数据 ,使 得 数据 信息 得 到 充分 利用 ,从 而 得 到 更 为 有 
效 的 参数 估计 。 本 章 介绍 了 动态 面板 数据 模型 GMM 估计 方法 的 原理 ,并 给 出 了 一 个 动态 
面板 数据 实例 。 


8.1 GMM 估计 


8.1.1 系统 GMM 估计 


广义 矩 估 计 (Generalized Method of Moments,GMM) 是 基于 模型 实际 参数 满足 一 定 矩 
条 件 而 形成 的 一 种 参数 估计 方法 ,是 矩 估 计 方 法 的 一 般 化 。 传 统 的 计量 经 济 学 估计 方法 , 例 
如 普通 最 小 二 乘法 ,工具 变量 法 和 极 大 似 然 法 等 都 存在 自身 的 局 限 性 。 即 其 参数 估计 量 必 
须 在 满足 某 些 假设 时 ,比如 模型 的 随机 误差 项 服从 正 态 分 布 或 某 一 已 知 分 布 时 才 是 可 靠 的 
估计 量 。 而 GMM 不 需要 知道 随机 误差 项 的 准确 分 布 信息 ,允许 随机 误差 项 存在 异 方差 和 
序列 相关 ,因而 所 得 到 的 参数 估计 量 比 其 他 参数 估计 方法 更 有 效 。 因 此 ,GMM 方法 在 模型 
参数 估计 中 得 到 广泛 应 用 。 

系统 GMM 估计 方法 可 以 控制 模型 中 可 能 存在 的 内 生性 和 异 方 差 问 题 。 该 方法 对 估 
计 模 型 进行 一 阶 差 分 ,将 弱 外 生变 量 的 滞后 项 作为 相应 变量 的 工具 变量 ,从 而 获得 一 致 有效 
的 估计 ,可 以 避免 严重 的 有 限 样 本 误差 。 而 其 他 方法 如 混合 最 小 二 乘法 、 固 定 效 应 模型 等 由 
于 只 是 简单 地 做 了 解释 变量 与 误差 项 的 协 方差 为 零 . 不 存在 异 方差 等 假设 而 难以 达到 较 好 
的 估计 效果 。 而 实际 中 ,解释 变量 一 般 具 有 内 生性 ,可 能 同时 决定 被 解释 变量 ; 误差 项 具有 
序列 相关 性 ,并 非 独 立 同 分 布 , 故 而 会 产生 有 偏 的 不一致 的 估计 结果 ,所 得 出 的 参数 含义 可 
能 出 现 误 导 。 
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8.1.2 GMM 估计 原理 


在 动态 面板 数据 模型 中 ,由 于 因 变量 滞后 项 作为 解释 变量 ,从 而 有 可 能 导致 解释 变量 与 
随机 扰动 项 相关 , 且 模 型 具有 横 截 面相 依 性 。 因 而 ,传统 估计 方法 进行 估计 时 必 将 产生 参数 
估计 的 有 偏 性 和 非 一 致 性 ,从 而 使 根据 参数 而 推断 的 经 济 学 含义 发 生 扭曲 。 针 对 以 上 情况 ， 
Arellano 和 Bond(1991),Blundell 和 Bond(1998) 提 出 GMM 估计 很 好 地 解决 了 上 述 问题 。 
以 下 列 形 式 的 动态 面板 数据 模型 为 例 简要 说 明 GMM 估计 的 基本 原理 。 

(1) 建立 动态 面板 数据 模型 。 

Y, = a Ya + DaiXi +e (8-1) 
其 中 ,Y; 为 被 解释 变量 ,X; 为 解释 变量 ,ao 、a; 为 待 估 系数 ,e; 为 随机 误差 项 。 

(2) GMM 估计 的 首要 条 件 是 运用 工具 变量 产生 相应 的 矩 条 件 方程 。 为 此 ,对 式 (8-1) 
进行 一 阶 差 分 得 到 式 (8-2) 。 

AY, = a AY, + >a AX, + Ae, (8-2) 

可 得 残 差 表达 式 

Ae, (a) = AY, — a AY uo 一 Da; AX: (8-3) 

(3) 对 式 (8-1) 进 行 一 阶 差分 是 为 达到 时 间 平 稳 效 应 ,主要 目的 在 于 选取 合适 的 工具 变 

量 和 产生 相应 的 矩 条 件 方程 。 通 常 将 Y,-,,Y,-; 作 为 工具 变量 。 设 f(a) 为 矩 条 件 方程 ,有 
fla) = fia) = SZ he) (8-4) 

其 中 ,Zi 为 所 选取 的 工具 变量 向 量 。 

GMM 估计 的 基本 思想 是 选择 使 样本 和 矩 之 间 的 加 权 距 离 最 小 , 即 GMM 的 估计 量 是 目 
标 函 数 极 小 化 时 的 参数 佑 计量 。 

minS(a) = f'(a) Hf (a) = | >) Zhe (a) |'H | 2 ZA (e) | (8-5) 

其 中 ,H 为 所 选取 的 权重 矩阵 。 


8.2 动态 面板 数据 模型 的 系统 GMM 估计 
1. 数据 分 析 


(1) 数据 统计 描述 。 进 行 数据 分 析 之 前 对 数据 的 统计 特征 进行 描述 ,结果 如 表 8. 1 所 
IR ,运行 代码 如 下 : 


# 0. 初始 化 
> setwd( 'E: /R/RCode/SYS GMM') 
> rm(list=1s()) 
# 1. 读 取 原 始 数据 
# # (1) 取出 数据 中 的 Firm 文本 列 
> Firm LLEV <- read. table("clipboard", colClass = "character") 
# 打开 Excel 表 复 制 文本 列 ,运行 该 语句 
> Firm LEV «- read. table("clipboard",colClass = "character") 
> save(Firm LLEV, Firm LEV, file- "Firm.RData") 井 将 文本 列 保存 为 R 数 据 文件 
> load("Firm. RData” ) * 以 后 使 用 可 直接 加 载 "文本 列 " 
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# H (2) 读 取 Excel 格式 的 数据 

> library(RODBC) # 加 载 包 
> CS data <— odbcConnectExcel("CapStruct. xls") 

> LLEV <— sqlFetch(CS data, "LLEV") 

> LEV <— sqlFetch(CS_data, "LEV") 

> close(CS_data) 

# # (3) 整理 读 人 的 数据 


> LLEV[,1] <- Firm LLEV[ -1,] # 将 Firm 列 的 股票 代码 还 原 为 文本 格式 
> LEV[,1] <— Firm LEV[ - 1,] 

» head(LLEV) # 查看 数据 的 前 6 行 

> head( LEV) 

>LEV<- LEV[, -13:(—14)] + 删除 后 面 的 空格 两 列 


> save(LLEV, LEV, file- "GMMData.RData") # 原始 数据 集 已 完全 整理 为 R 数 据 文件 并 保存 
> load("GMMData. RData") 

* 2. 数据 的 基本 特征 

# # (1) summary 函数 特征 描述 

> summary(LLEV) 

> summary(LEV) 

# # (2) describe 函数 特征 描述 

> library(Hmisc) 

>describe(LLEV) # 如 果 unique < 10, 那么 该 变量 是 离散 的 ; 如 果 uinque > 20, 那么 会 输出 5 个 
最 低 和 最 高 的 值 

> describe(LEV) 

> dim(LLEV) 

> class(LLEV) 

> dim(LEV) 

> class(LEV) 

> LLEV FirmNum «- unique(LLEV $ Firm) 

» length(LLEV FirmNum) 

> LEV FirmNum <- unique(LEV $ Firm) 

> length(LEV FirmNum) 


表 8.1 数据 统计 描述 


统计 描述 最 小 值 均值 中 位 数 最 大 值 
overall Leverage (LED) 0. 0000 0.7532 0.5176 877. 2559 
Long-term leverage (LTLV) 0. 0000 0. 0709 0.0263 1.8917 
ROA — 2146. 161 2.159 0.029 23509. 769 
Growth opportunities — 90989. 00 —4.87 0.90 10860. 78 
Asset tangibility 0. 0000 0. 4638 0. 4608 0. 9946 
Size 10. 84 21.37 21.25 30. 10 
Earnings Volatitity 0.0 891.3 86.7 1080602. 0 
Non-debt tax shields —0. 03366 0. 05704 0. 02224 163. 76950 
Independent directors 0. 0000 0.3515 0. 3333 0. 7500 
Dummy CEO 1 0. 0000 0. 1386 0. 0000 1.0000 
'Ownership concentration 0.82 38.41 36.17 98. 86 
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(2) 缺失 数据 处 理 。 在 建立 模型 之 前 ,对 所 选取 的 数据 进行 了 缺失 值 处 理 。 首 先 ,识别 
缺失 数据 ,检查 缺失 数据 ,探究 缺失 数据 模式 。 图 8. 1 以 图 形 方式 展示 了 不 同 变量 存在 的 缺 
失 数 据 。 


# # (3) 缺失 值 NA 处 理 

> library(mice) 

> LLEV_Na. Pattern <- md.pattern(LLEV[, — 1:( — 2)]) # 展示 缺失 值 模式 的 表格 
> LEV_Na. Pattern <- md. pattern(LEV[, — 1:( - 2)]) 

> library(VIM) 

> aggr(LLEV[, - 1: ( - 2) ], prop = FALSE, numbers = TRUE) # 图 形 探究 缺失 数据 
> aggr(LEV[, -1:(— 2)], prop = FALSE, numbers = TRUE) 

> LLEV_Na. ind <- which(is.na(LLEV), arr. ind = TRUE) # 缺失 值 下 标 和 矩阵 
> LEV Na. ind <— which(is.na(LEV), arr.ind = TRUE) 

» LLEV Varind «- as.data.frame(which(is.na(LLEV[, —3]), arr.ind - TRUE)) 
# 解释 变量 缺失 值 下 标 和 矩阵 

> LEV_Varind <- as.data.frame(which(is.na(LEV[, 一 3])，arr. ind = TRUE)) 

> LLEV_Nna <- LLEV[ - LLEV_Varind $ row, ] 

> LEV Nna <- LEV[ - LEV_Varind $ row, ] 

> dim(LLEV_Nna) 

> class(LLEV_Nna) 

> dim(LEV_Nna) 

> class(LEV_Nna) 

> LLEV Nna FirmNum < 一 unique(LLEV_Nna$ Firm) # 统计 剔除 NR 值 后 的 Firm 个 数 
> dim(LLEV_Nna_FirmNum) 

> LEV Nna FirmNum <- unique(LEV Nna$ Firm) 

» length(LEV Nna FirmNum) 


Combinations 


Number of missings 
E 
è 
s 


,| im_ Mull .. 


ROA Size ROA Size 
图 8.1 图 形 展示 缺失 数据 


一 般 地 ,被 解释 变量 是 根据 解释 变量 去 预测 ,所 以 当 解释 变量 存在 缺失 时 无 法 进行 被 解 
释 变量 的 预测 。 因 此 ,此 处 缺失 数据 的 处 理 标准 为 如 果 解 释 变量 存在 某 个 缺失 值 , 那 么 将 相 


应 行 数据 全 部 进行 剔除 。 

2. 模型 选择 

经 济 理论 告诉 我 们 ,杠杆 效应 是 一 个 连续 动态 的 过 程 , 上 期 的 杠杆 效应 对 当期 杠杆 效应 
产生 某 种 影响 ,因而 引入 滞后 因 变量 更 符合 理论 与 现实 。 然 而 一 旦 将 滞后 因 变量 引入 方程 ， 


原本 的 静态 模型 将 会 转变 为 动态 模型 , 现 有 的 一 般 估 计 方 法 将 会 失效 ,结论 的 准确 性 也 将 无 
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从 保证 ,只 有 采用 动态 面板 数据 模型 (DPD) 才 能 进行 较为 有 效 的 估计 。 为 此 ,本 文选 用 行业 
面板 数据 ,在 研究 方法 上 采用 了 基于 广义 矩 估计 的 动态 面板 数据 模型 。 

为 研究 总 杠杆 效应 (Overall Leverage. LED) , K # £T FF 2X y (Long-Term Leverage. 
LTLV) 分 别 受 哪 些 变量 的 影响 ,可 分 别 将 LED.LTLV 设 定 为 被 解释 变量 ,并 分 别 选 取 9 种 
变量 作为 解释 变量 : ROA、Growth opportunities、Asset tangibility、SIZE、Earnings 
Volatility, Non-debt tax shield, Independent director, Dummy CEO 1、Ownership 
concentration ,根据 动态 面板 数据 模型 一 般 表 达 式 分 别 建立 两 种 动态 面板 数据 模型 。 

模型 一 : 设 LED 为 被 解释 变量 ,解释 变量 除 选取 上 述 9 种 变量 之 外 , 另 选取 LED fijo 
后 1 阶 ,ROA Growth Opportunities, SIZE, Non-Debt Tax Shield 的 滞后 1 Br.2 阶 作 为 解 
释 变 量 , 被 解释 变量 LED 的 滞后 3 阶 作为 工具 变量 。 


17 
YEP = a Yi) + 2Ja,X, +ë (8-6) 
i=l 


模型 二 : 设 LTLV 为 被 解释 变量 ,解释 变量 除 选取 上 述 9 种 变量 之 外 , 另 选取 LTLV fj 
后 1 阶 .2 阶 ,Growth Opportunities SIZE, Earnings Volatility, Ownership concentration 的 滞后 1 
阶 作为 解释 变量 ,被 解释 变量 LTLV 的 滞后 3 一 8 阶 作为 工具 变量 。 

TH = KY + Sax, te CB 

在 系统 GMM 估计 中 存在 动态 模型 设 定 是 否 适当 和 工具 变量 选择 是 否 有 效 的 问题 。 
判断 的 技术 标准 有 两 个 。 

(D Sargan 检验 ,也 称 为 ] 检验 。Sargan 检验 用 于 检验 是 否 存在 过 度 识 别 。 在 原 假设 
成 立 的 条 件 下 (无 过 度 识 别 ) , 渐 近 服从 卡 方 分 布 ,自由 度 为 工具 个 数 与 参数 个 数 之 差 。 

(2) 模型 差分 的 残 差 是 否 序 列 相关 。 运 用 模型 1 阶 差分 的 残 差 阶 序列 相关 的 统计 量 
m(n) 来 判断 工具 变量 的 有 效 性 ,m(n) 的 原 假设 为 无 序列 相关 , 渐 近 服从 正 态 分 布 。 基 于 此 
策略 选择 工具 变量 ,如 果 差 分 残 差 存在 1 阶 序列 相关 ,工具 变量 必须 取 滞后 2 阶 或 更 高 阶 才 
ARG 依 此 类 推 ,如 果 2 阶 序列 相关 ,工具 变量 须 为 滞后 3 阶 或 更 高 阶 (Brown 和 Petesen, 
2009), 

由 动态 系统 GMM 估计 步骤 分 别 得 到 两 模型 的 参数 估计 结果 如 表 8.2 所 示 。 代 码 
如 下 : 


# 3. 系统 GMM 模型 
EE (1) 加 载 面板 数据 模型 包 
> library(plm) 
# # (2) 将 原始 数据 转化 为 面板 模型 数据 
> LLEV_data <— pdata. frame(LLEV_Nna, c("Firm ","Year"), drop = TRUE) 
> LEV_data <— pdata. frame(LEV_Nna, c("Firm ","Year"), drop = TRUE) 
# # (3) 建 立 模型 
> colnames(LLEV data) <- c("Yllev","Roa","Gopp","Asst","Size","Evol","Ndt"," Indd"," 
Dceo","Ocon") # 给 变量 重新 命名 
> LLEV_SGMM <- pgmm(Yllev ~ lag(Yllev, 1:2) + Roa + Gopp + lag(Gopp, 1) + Asst + Size + lag| 
(Size,1) + Evol 
+ lag(Evol,1) + Ndt + Indd + Dceo + Ocon + lag(Ocon,1) | lag(Yllev, 3:8), 
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data = LLEV data, effect = "twoways", model = "twosteps",transformation = " 
1d") 
> summary(LLEV_SGMM, robust = TRUE) 
> colnames(LEV data) <- c("Ylev", "Roa", "Gopp" , "Asst", "Size", "Evol", " Ndt" , " Indd" , "Deeo"," 
Ocon") # 给 变量 重新 命名 
> LEV_SGMM <— pgmm(Ylev ~ lag(Ylev,1) + Roa + lag(Roa, 1:2) + Gopp + lag(Gopp, 1:2) + Asst + 


Size+ lag(Size,1:2) 


1d") 


+ Evol + Ndt + lag(Ndt, 1:2) + Indd + Dceo + Ocon| lag(Ylev,3), 
data- LEV data, effect - "twoways", model - "twosteps",transformation - " 


» summary(LEV SGMM, robust - TRUE) 


表 8.2 系统 GMM 模型 参数 估计 结果 


系统 GMM 估计 参数 模型 一 LED 模型 二 LTLV 
Lag(LED,1) 1.9895e-01 (4. 5534e-02) *** mM 
lag(LTLV, 1) m 6. 2063e-01 (3. 02766-02) *** 
lag(LTLV, 2) m —4. 95806-02 (4. 0067e-02) 
ROA —3.1174e-02 (1. 4411e-04) xxx | 7. 2820e-07 (5. 7126-07) 
lag ROAD 7.9660e-03 (1. 4184e-03) xxx uM 
lag(ROA,2) — 6. 1856e-01 (8. 9142e-01) 


Growth opportunities 


— 5. 9986e-06 (1. 8450e-05) 


— 2. 3664e-06 (2. 0525e-06) 


lag(Growth opportunities, 1) 


6. 1204e-06 (1.0918e-06) *** 


3. 7564e-07 (1. 1031e-07) *** 


lag(Growth opportunities, 2) 


4. 3835e-06 (1. 6768e-06) ** 


Asset tangibility 


— 8. 2201e-02 (8. 3999e-02) 


3.1781e-02 (8. 7562e-03) *** 


Size — 2. 4352e-01 (1. 6859e-01) 3. 3865e-02 (3. 8240e-03) *** 
lag(Size,1) 1. 6429e-01 (1. 5382e-01) — 2. 2694e-02 (3. 6209e-03) *** 
lag(Size.2) 9. 9201e-02 (7. 4498e-02) 


Earnings Volatitity 


— 4. 9290e-08 (2. 0200e-07) 


8. 1813e-09 (1. 1842e-08) 


lag(Earnings Volatitity, 1) 


— 2. 7945e-08 (1. 2320e-08) * 


Non-debt tax shields 


5. 3665e+00 (1. 7496e-02) *** 


1. 7831e-03 (2. 7154e-04) *** 


lag(Non-debt tax shields.1) 


—4.9273e-01 (2. 4635e-01) * 


lag(Non-debt tax shields,2) 


—4. 9635e+00 (1. 4704e+00) *** 


Independent directors 


—3. 2618e-01(2. 7035e-01) 


7. 6915e-03 (2. 5750e-02) 


Dummy CEO 1 


4. 0240e-02(4. 0133e-02) 


— 1. 2759e-03 (3. 1224e-03) 


'Ownership concentration 


— 1. 4356e-03(1. 4422e-03) 


2. 4383e-04 (1. 9514e-04) 


lagC'Ownership concentration. 1) 


一 3. 5256e-04(1. 8561e-04) 


J (p-value) 


36. 4244(0. 0654) 


36. 2445(0. 0873) 


ml (p-value) 


— 0. 3530 (0. 7241) 


—4. 9510 (0. 0000) 


m2 (p-value) 


—0. 7253 (0. 4683) 


0. 3577 (0. 7205) 


Firms/observations 


1584/9061 


1584/9061 


ik. BUS A ATE (UR O” rp B ECC RR D f HEU Es 、** 和 *** 分 别 表示 在 10% .5% 和 1% 的 显著 水 
平 下 模型 系数 是 否 显著 ;“ “表示 相应 模型 中 没有 采用 该 参数 变量 。 


由 表 8.2 估计 结果 ,可 以 有 如 下 结论 : 
CD J 统计 量 及 P 值 显示 .模型 一 、 模 型 二 接受 原 假设 , 均 不 存在 过 度 识 别 问题 ,因而 工 
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(2) 由 m(2) 统 计量 及 P 值 可 知 , 模 型 一 ,模型 二 一 阶 差分 残 差 的 二 阶 序列 自 相关 检验 
均 接 受 原 假设 , 即 不 存在 序列 相关 性 , 渐 近 服从 正 态 分 布 。 

由 以 上 分 析 可 知 ,动态 模型 一 、 模 型 二 的 系统 GMM 估计 满足 其 两 个 判断 技术 标准 , 因 
此 模型 的 工具 变量 选择 有 效 ,模型 设 定 合理 。 

3. 结果 分 析 

OLS 没有 考虑 误差 项 构成 ,只 是 简单 地 假设 解释 变量 与 误差 项 不 相关 。 而 实际 上 解释 
变量 可 能 被 同时 决定 , 即 具有 内 生性 。 固 定 效应 (FE) 虽 然 可 以 控制 未 观察 到 的 特定 企业 异 
质 性 ,但 同样 不 能 控制 内 生性 问题 。 而 且 OLS FE 还 假设 不 存在 异 方差 。 由 于 这 些 假 设 有 
违 现实 ,因此 其 估计 结果 是 有 偏差 的 ,而 GMM 估计 正好 能 够 解决 这 些 现 实 问题 。 


ES 


数据 挖掘 专题 


数据 挖掘 (Data Mining. DM) 4# (f JE BHR rh iè HR A fi LT SER. Hh — 
个 非常 热门 的 专题 ,本 章 介 绍 几 种 典型 的 数据 挖掘 方法 ,包括 关联 规则 、 贝 叶 斯 分 类 、 决 策 
树 、 人 工 神经 网 络 ,支持 向 量 机 等 算法 ,并 给 出 在 R 环境 下 实现 相应 算法 的 应 用 实例 。 


9.1 关联 规则 


关联 规则 是 数据 挖掘 中 一 个 重要 的 算法 , 它 能 挖掘 得 到 变量 之 间 的 依赖 关系 ,给 决策 提 
供 一 定 的 依据 ,在 实际 中 有 着 较为 广泛 的 应 用 。 例 如 ,在 商品 交易 中 ,关联 规则 是 发 现 不 同 
商品 之 间 的 联系 ,得 到 顾客 购买 行为 模式 ,比如 顾客 会 一 起 购买 的 商品 有 哪些 ,根据 这 些 模 
式 可 以 进行 商品 的 摆 放 设计 及 顾客 的 分 类 等 。 一 个 典型 的 例子 就 是 尿布 与 啤酒 的 购买 模 
式 , 即 和 尿布 一 起 购买 最 多 的 商品 是 啤酒 ,根据 这 一 关联 规则 可 以 将 尿布 和 啤酒 摆 放 在 同一 
货架 上 。 规 则 中 的 项 (Item) 指 的 是 表 中 非 主键 及 外 键 属性 的 取 值 ,每 一 个 取 值 为 一 个 项 。 
项 集 (Itemset) , 即 项 组 成 的 集合 , 记 为 [一 人 i s ,is)。 关 联 规则 指 的 是 类 似 于 A 一 B 的 
蕴涵 式 , 其 中 ACI,BCI 且 A 和 B 不 相交 。 支 持 度 和 可 信和 度 是 关联 规则 中 重要 的 两 个 概 


念 。 规 则 的 支持 度 S(A+B) = PAB) = {AL nea D 中 事务 同时 包含 AB 的 概率 。 
规则 的 可 信 度 cam - Pai - AL ecco A 的 同时 也 包含 B 的 条 件 概率 。 
要 挖 气 出 有 用 的 关联 规则 需要 设 定 闵 值 , 即 最 小 支持 度 和 最 小 可 信 度 。 频 繁 项 集 指 的 是 消 
足 最 小 支持 度 的 项 集 。 若 规则 同时 满足 最 小 支持 度 和 最 小 可 信和 度 , 则 为 关联 规则 或 强 关联 


NE jCAB) 二 _ PAB aa T 
规则 。 兴 趣 度 ICA B) — g jo p gs HET. A 与 B 的 相关 程度 , 若 兴趣 度 等 于 1, 则 A 和 


B 的 出 现 是 相互 独立 的 ; 车 兴趣 度 大 于 1, 则 A 和 B 是 正 相关 的 ,这 种 情况 下 兴趣 度 越 大 ， 
关联 规则 越 具有 实际 应 用 价值 ; 反之 ,车 兴 趣 度 小 于 1, 则 A 和 B 是 负 相 关 的 ,此 时 兴趣 度 
越 小 ,规则 的 反面 规则 越 具有 实际 应 用 意义 。 
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Apriori 算法 是 一 种 经 典 的 关联 规则 算法 ,该 算法 是 按照 一 定 规则 生成 候选 频繁 集 进而 
找到 频繁 模式 。 该 算法 将 关联 规则 的 挖掘 分 为 以 下 两 个 阶段 进行 ,第 一 阶段 : 找 出 所 有 的 
频繁 项 集 , 即 支持 度 大 于 最 小 支持 度 的 项 集 ; 第 二 阶段 : 运用 第 一 阶段 找 出 的 频繁 项 集 得 
到 关联 规则 。 

在 R 环境 中 实现 Apriori 算法 如 下 : 

1. 加 载 包 


> library(arules) 


2. 载 入 transaction 数据 对 象 Adult 


> data(Adult) 


3. 输出 关联 规则 对 象 rules 
apriori 函数 接受 一 个 transaction 对 象 的 输入 ,输出 关联 规则 对 象 rules。 为 方便 起 见 ， 
这 里 用 于 计算 的 transaction 对 象 Adult 是 通过 第 5 行 从 arules 包 中 现成 载 入 进来 的 。 


> rules <- apriori(Adult, parameter = list(supp = 0.5, conf = 0.9, target = "rules")) 
parameter specification: 
confidence minval smax arem aval originalSupport support minlen maxlen 
0.9 0.1 1 none FALSE TRUE 0.5 1 10 

target ext 

rules FALSE 
algorithmic control: 

filter tree heap memopt load sort verbose 

0.1 TRUE TRUE FALSE TRUE 2 TRUE 

apriori — find association rules with the apriori algorithm 
version 4.21 (2004.05.09) (c) 1996 - 2004 Christian Borgelt 
set item appearances ...[0 item(s)] done [0.00s]. 
set transactions ...[115 item(s), 48842 transaction(s)] done [0. 06s]. 
sorting and recoding items ... [9 item(s)] done [0.01s]. 
creating transaction tree ... done [0.07s]. 
checking subsets of size 1 2 3 4 done [0. 00s]. 
writing ... [52 rule(s)] done [0.00s]. 
creating S4 object ... done [0.01s]. 


9.2 降 维 分 析 


多 维 标 度 分 析 (MDS) 是 一 种 将 多 维 空间 的 研究 对 象 简化 到 低 维 空间 进行 定位 、 分 析 和 
归 类 ,同时 又 保留 对 象 间 原 始 关 系 的 数据 分 析 方 法 。 
设想 一 下 ,如 果 在 欧 氏 空间 中 已 知 一 些 点 的 坐标 ,由 此 可 以 求 出 欧 氏 距离 。 那 么 反 过 
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来 ,已 知 距离 应 该 也 能 得 到 这 些 点 之 间 的 关系 。 这 种 距离 可 以 是 古典 的 欧 氏 距离 ,也 可 以 是 
广义 上 的 “距离 ” MDS 就 是 在 尽量 保持 这 种 高 维度 “距离 ”的 同时 ,将 数据 在 低 维度 上 展现 


出 来 。 


在 经 典 MDS 中 ,距离 是 数值 数据 表示 ,将 其 看 作 是 欧 氏 距离 。 在 R 中 stats 包 的 
cmdscale 函数 实现 了 经 典 MDS。 它 是 根据 各 点 的 欧 氏 距离 ,在 低 维 空间 中 寻找 各 点 坐标 而 


尽量 保持 距离 不 变 。 


CODO 下 载 数据 。 从 http://rosetta. reltech. org/TC/v15/Mapping/data/dist — Aus. csv 


上 下 载 Australia 的 8 个 城市 间 的 距离 数据 。 


> url <- "http://rosetta. reltech. org/TC/v15/Mapping/data/dist - Aus. csv" 


> dist.au <- read.csv(url) 


> dist.au 
x A AS B D H M P s 

LE 0 1328 1600 2616 1161 653 2130 1161 
2 AS 1328 0 1962 1289 2463 1889 1991 2026 
3 B 1600 1962 0 2846 1788 1374 3604 732 
4 D 2616 1289 2846 0 3734 3146 2652 3146 
5 H 1161 2463 1788 3734 0 598 3008 1057 
6 M 653 1889 1374 3146 598 0 2720 713 
7 P 2130 1991 3604 2652 3008 2720 0 3288 
8 S 1161 2026 732 3146 1057 713 3288 0 


(2) 移 除 第 1 列 , 将 城市 名 称 首 写字 母 设置 为 行 名 称 。 


> row.names(dist.au) «- dist.au[, 1] 
> dist.au«- dist.au[, - 1] 


» dist.au 
A AS B D H M P s 

A 0 1328 1600 2616 1161 653 2130 1161 
AS 1328 0 1962 1289 2463 1889 1991 2026 
B 1600 1962 0 2846 1788 1374 3604 732 
D 2616 1289 2846 0 3734 3146 2652 3146 
H 1161 2463 1788 3734 0 598 3008 1057 
M 653 1889 1374 3146 598 0 2720 713 
P 2130 1991 3604 2652 3008 2720 0 3288 
S 1161 2026 732 3146 1057 713 3288 0 


(3) emdscaleO BEE. 


> fit <— cmdscale(dist.au, eig = TRUE, k = 2) 
>x<- fit$ points[, 1] 
>y<- fit$ points[, 2] 
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k 表示 数据 的 最 大 空间 维度 eig 表示 是 否 返 回 特征 值 ,x、y 表示 横 轴 、 纵 轴 。 
(4) 可 视 化 结果 : 在 一 张 图 上 显示 各 城市 的 位 置 (图 9.1). 


> plot(x, y, pch = 19, xlim = range(x) + c(0, 600)) 

city. names <- c("Adelaide", "Alice Springs", "Brisbane", "Darwin", "Hobart", 
"Melbourne", "Perth", "Sydney") 

> text(x, y, pos = 4, labels = city.names) 


1500 * Penh 
1000 
* Hobart 
500 a e Adelaide 


E 0 Melbourne 


p e Sydney * Alice Springs 
-1000 Brisbane | N ®,Darwin 
-1000 0 1000 2000 
x 
图 9.1 各 城市 位 置 


(5) 翻转 avy fili, FE y 轴 进 行 翻转 ,如 图 9. 2 所 示 ,Darwin 和 Brisbane 则 会 移动 到 
顶部 (北部 ) ,这 样 方便 在 一 张 地 图 上 对 其 进行 比较 。 


»x«-0-x 

s e-9-- 

> plot(x, y, pch = 19, xlim = range(x) + c(0, 600)) 
> text(x, y, pos = 4, labels = city.names) 


1000. ° Darwin * Brisbane 
500r š " 
* Alice Springs © Sydney 
oF 
= . Melbourne 
-500r Adelaide 
* Hobart 
-1000F 
P. 
-isoh PE", A i i 
—2000 -1000 0 1000 2000 
x 
图 9.2 翻转 坐标 轴 


(6) Igraph 包 中 layout. mdsQ 〇 ) 也 可 以 实现 降 维 。 创 建 一 个 8 个 节点 的 图 形 , 并 设置 布 
局 为 上 述 8 个 城市 的 距离 矩阵 ,同样 可 以 得 到 与 图 9.2 类 似 的 地 图 布局 。 
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> library(igraph) 

> g<- graph.full(nrow(dist.au)) 

> V(g) $ label <- city. names 

> layout <— layout.mds(g, dist = as.matrix(dist.au)) 
> plot(g, layout = layout, vertex.size = 3) 


Darwin — — — — — — — — —— Brisbane 


Alice Springs Sydney 


Adelaige Melbourne 


Hobart 


Perth 


图 9.3 可 视 化 结果 


9.3 社交 网 络 分 析 


社交 网 络 (Social Network) ,也 称 为 社会 网 络 ,用 来 分 析 一 组 社会 行动 者 之 间 关 系 结构 
特征 的 方法 。 社 交 网 络 正 朝 着 节约 社交 时 间 和 物质 成 本 ,获取 高 速 ` 有 效 信息 这 一 方向 发 
展 。 社 交 网 络 通过 网 络 这 一 平台 把 不 同 的 人 联系 起 来 形成 具有 某 一 特点 的 团体 。 

社交 网 络 理论 认为 社会 是 一 个 网 络 图 ,这 个 网 络 图 由 节点 (Nodes) 和 节点 与 节点 之 间 
的 连 边 组 成 。 对 于 节点 可 以 认为 是 各 个 社会 行动 者 ,在 社交 网 络 中 任何 一 个 社会 单位 或 者 
社会 实体 可 以 看 作 是 “点 ”, 而 社会 连带 则 是 各 个 行动 者 之 间 的 社会 关系 , 既 可 指 朋 友 关 系 、 
同事 关系 等 ,也 可 指 因 分 享 经 验 ,资源 或 信息 而 产生 的 互动 关系 。 

(1) 数据 下 载 。 


> # load termDocMatrix 

> load("data/termDocMatrix. rdata") 
> # inspect part of the matrix 

> termDocMatrix[5:10,1:20] 


Docs 
Terms 123 45 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
data 11 002 900 00 9 1 2 1 1 1 0 1 0 0 O 
examples 0000000000000000000 0 
introduction0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 
mining 00000000000 1 1.01 0000 0 
network 0000000000000001 0 1 1 1 
package 00011000000 1 0 0 0 0 0 0 0 0 
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(2) 注意 到 上 述 矩 阵 是 一 个 标准 矩阵 ,而 不 是 文本 挖掘 框 架 下 的 term-document 矩阵 。 


在 包 tm 里 运行 term-document 矩阵 代码 ,需要 先进 行 下 述 转化 : 


> termDocMatrix <- as. matrix(termDocMatrix) 


(3) 将 数据 转化 为 邻接 矩阵 。 


> # change it to a Boolean matrix 

> termDocMatrix[termDocMatrix» - 1] <- 1 

> # transform into a term - term adjacency matrix 

> termMatrix <— termDocMatrix % * % t(termDocMatrix) 
> # inspect terms numbered 5 to 10 

> termMatrix[5:10,5:10] 


Terns 
Terms data examples introduction mining network package 
data 53 5 2 34 0 7 
examples 5 17 2 5 2 2 
introduction 2 2 10 2 2 0 
mining 34 5 2 47 1 5 
network 0 2 2 1 17 1 
package i pA 0 5 1 21 


(4) 建立 图 形 。 建 立 一 个 term-term 邻接 和 矩阵, 各行 各 列 代 表 一 个 term。 此 处 使 用 


igraph 包 中 的 graph. adjacency() 建 立 图 形 。 


> library( igraph) 

> # build a graph from the above matrix 

>g<- graph.adjacency(termMatrix, weighted- T, mode = "undirected") 
> # remove loops 

>g<- simplify(g) 

> # set labels and degrees of vertices 

> V(g) $ label <- V(g) $ name 

> V(g) $ degree <- degree(g) 


(5) 绘制 图 形 (图 9.4). 


> # set seed to make the layout reproducible 
> set. seed(3952) 

> layoutl <- layout. fruchterman. reingold(g) 
> plot(g, layout = layout1) 


(6) 优化 图 形 输出 效果 。 进 一 步 设 置顶 点 标签 的 尺寸 ,对 重要 的 term 加 以 突出 ,基于 
权重 设置 连接 线 的 宽度 和 透明 度 。 这 在 顶点 和 连接 线 众多 时 应 用 优势 突出 。 在 下 面 的 代码 
中 ,顶点 和 连接 线 分 别 从 VO A EQ AR. PRX rgb(red，green，blue，alpha) 定 义 颜 色 ， 


alpha 定义 透明 度 。 同 样 可 以 绘制 得 到 与 上 述 图 形 布局 类 似 的 效果 图 (图 9. 5) 。 
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图 9.4 结果 输出 


> V(g) $ label.cex «- 2.2 * V(g) $ degree / max(V(g) $ degree) + .2 
> V(g) $ label. color <- rgb(0, 0, .2, .8) 


> V(g) $ frame. color <- NA 


> egam <— (log(E(g) $ weight) + .4) / max(1og(E(g) $ weight) + .4) 
> E(g) $ color <- rgb(.5, .5, 0, egam) 


> E(g) $ width < 一 egam 
> # plot the graph in layout1 
> plot(g, layout = layout1) 
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9.5 优化 可 视 化 效果 
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9.4 贝 叶 斯 分 类 法 


9.4.1 贝 叶 斯 定理 
贝 叶 斯 定理 涉及 条 件 概率 PCA1B) 指 的 是 在 事件 B 发 生 的 条 件 下 ,事件 A 发 生 的 概 
x. PAL 一 了 DAAB)。 在 实际 问题 中 ,人 们 常常 能 够 观察 得 到 PCA |B) ,但 更 想 知道 的 是 


PB) 
PCBIA), 贝 叶 斯 给 出 了 一 种 根据 前 者 计算 后 者 的 方法 , 即 贝 叶 斯 定理 : P(B |A) 
_ P(A|B)P(B) 

~ FD 


贝 叶 斯 定理 通常 应 用 于 数据 分 类 ,其 基本 思想 为 对 未 知 分 类 的 数据 记录 ,通过 计算 在 该 
记录 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ,其 中 概率 最 大 的 类 别 即 为 此 数据 记录 的 类 别 。 贝 
叶 斯 分 类 的 步骤 如 下 了 。 

CD 假设 z 为 未 知 分 类 的 数据 记录 , 记 为 x lai sas au) ,其 中 aa,as，… a, 表示 记 
录 的 特征 属性 。 

(2) 假设 C 为 类 别 的 集合 , 记 为 C= {yyy} o 

(3) 计算 条 件 概率 Py |z),P(Cys|z),…,PCw|z)。 

(4) 比较 概率 大 小 ,确定 类 型 : 车 有 PCy, 1a) = maxi Py lx), Peya |e) oes Pon | 
2)) , 则 待 分 类 的 数据 记录 z€ w。 


9.4.2 贝 叶 斯 分 类 实例 


下 面 在 R 环境 下 利用 贝 叶 斯 分 类 包 e1071 对 营 尾 花 (iris) 数 据 集 进行 贝 叶 斯 训练 ,并 预 
测 分 类 @。 
(1) 安装 并 加 载 e1071 包 。 


> install. packages("e1071") # 安装 包 
> library(e1071) # 加 载 包 


(2) 加 载 高 尾 花 数 据 集 。 
包含 150 种 葛 尾 花 的 信息 ,其 中 每 50 种 取 自 三 个 葛 尾 花 种 之 一 (setosa、versicolour 及 


virginica) 。 


> data(iris) 
> iris 

Sepa1. Length Sepal. Width Petal. Length Peta1. Width Species 
1 5.1 3.5 1.4 0.2 etosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 


© http://www. cnblogs. com/phoenixzq/p/3539619. html. 
© http: //my. oschina. net/letiantian/blog/324269? p=1. 
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10 setosa 


以 上 显示 的 是 iris 数据 集中 前 10 条 记录 。 该 数据 集中 每 个 花 的 特征 有 以 下 5 种 属性 
描述 : BSH KIE (Sepal. Length) , € Jr 9 BE (Sepal. Width) , 7E WK HE (Petal. Length) , 46 ii 
宽度 (Petal. Width) 类别 (Species) 。 

(3) 用 高 尾 花 数 据 集 进行 贝 叶 斯 训练 。 


> classifier <- naiveBayes(iris[,1:4], iris[,5]) 

> classifier 

Naive Bayes Classifier for Discrete Predictors 

Call: 

naiveBayes. default(x = iris[, 1:4], y = iris[, 5]) 


类 别 的 先 验 概率 : 


A- priori probabilities: 
iris[, 5] 

setosa versicolor virginica 
0.3333333 0.3333333 0.3333333 


特征 Sepal. Length 的 条 件 概率 (此 处 假设 概率 密度 符合 高 斯 分 布 ): 


Conditional probabilities: 
Sepal. Length 


iris[, 5] [,1] E21 
setosa 5.006 0.3524897 
versicolor 5.936 0.5161711 
virginica 6.588 0.6358796 


以 上 结果 具体 的 解释 为 : 对 于 特征 Sepal. Length, 其 中 属于 setosa 类 的 概率 符合 mean 
为 5. 006 ,标准 差 为 0.3524897 的 高 斯 分 布 ; 属于 versicolor 类 的 概率 符合 mean 为 5. 936, 
标准 差 为 0. 5161711 的 高 斯 分 布 ; 属于 virginica 类 的 概率 符合 mean 为 6. 588、 标 准 差 为 
0.6358796 的 高 斯 分 布 。 以 下 对 于 特征 Sepal. Width、Petal. Length 及 Petal. Width 的 结果 
解释 是 一 样 的 。 


Sepal. Width 
iris[, 5] [,1] t 21 
setosa — 3.428 0.3790644 


versicolor 2.770 0.3137983 
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Virginica 


iris[, 5] 
setosa 
versicolor 
virginica 


irisi; SI 
setosa 
versicolor 
virginica 


2.974 


Petal. Length 
[1] 
1.462 
4.260 
5.552 


Petal. Width 
L1] 
0.246 
1.326 
2.026 


0. 3224966 


[,2] 

0. 1736640 
0. 4699110 
0. 5518947 


(,2] 

0. 1053856 
0.1977527 
0.2746501 


CD 对 萝 尾 花 数 据 集中 第 一 条 记录 进行 类 别 的 预测 。 


> predict(classifier, iris[1, - 5]) 
[1] setosa 
Levels: setosa versicolor virginica 


(5) 该 贝 叶 斯 分 类 的 效果 。 


> table(predict(classifier, iris[, —-5]),iris[,5],dnn= list( 'predicted', 'actual')) 


actual 
predicted setosa versicolor virginica 
setosa 50 0 0 
versicolor 0 47 3 
virginica 0 3 47 


由 以 上 结果 可 以 看 出 ,分 类 该 贝 叶 斯 分 类 的 分 类 预测 效果 很 好 。 
(6) 构造 一 条 新 记录 并 进行 分 类 预测 。 


> new_data = data. frame(Sepal. Length = 7, Sepal. Width = 3, Petal. Length = 6, Petal. Width = 2) 
> predict(classifier,new_data) 

[1] virginica 

Levels: setosa versicolor virginica 


由 此 完成 了 运用 R 进行 贝 叶 斯 分 类 。 


9.5 决策 树 


9.5.1 决策 树 原理 


决策 树 方法 起 源 于 概念 学 习 系 统 (Concept Learning System, CLS) ,然后 发 展 了 ID3 方 
法 并 达到 高 峰 , 最 后 又 演化 为 能 处 理 连续 属性 的 C4. 5。 有 名 的 决策 树 方法 还 有 CART 和 
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Assistant。 在 机 器 学 习 中 ,决策 树 是 一 个 预测 模型 , 它 代 表 的 是 对 象 属性 与 对 象 值 之 间 的 
一 种 映射 关系 。 

决策 树 提供 了 一 种 展示 类 似 在 什么 条 件 下 会 得 到 什么 值 这 类 规则 的 方法 。 比 如 ,在 投 
保 申请 中 要 对 投保 风险 的 大 小 做 出 判断 。 决 策 树 的 基本 组 成 部 分 为 决策 节点 ,分支 和 叶子 。 

决策 树 中 最 上 面 的 节点 称 为 根 节点 ,是 整个 决策 树 的 开始 。 决 策 树 的 每 个 节点 子 节点 
的 个 数 与 决策 树 所 用 的 算法 有 关 。 如 CART 算法 得 到 的 决策 树 每 个 节点 有 两 个 分 支 ,这 种 
树 称 为 二 又 树 。 人 允许 节点 含有 多 于 两 个 子 节点 的 树 称 为 多 又 树 。 

每 个 分 支 要 么 是 一 个 新 的 决策 节点 ,要 么 是 树 的 结尾 , 称 为 叶子 。 在 沿 着 决策 树 从 上 到 
下 遍历 的 过 程 中 ,在 每 个 节点 都 会 遇 到 一 个 问题 ,对 每 个 节点 上 问题 的 不 同 回答 导致 不 同 的 
分 支 ,最 后 会 到 达 一 个 叶子 节点 。 这 个 过 程 就 是 利用 决策 树 进行 分 类 的 过 程 ,利用 几 个 变量 
(每 个 变量 对 应 一 个 问题 ) 来 判断 所 属 的 类 别 ( 最 后 每 个 叶子 会 对 应 一 个 类 别 ) 。 

建立 决策 树 的 过 程 , 即 树 的 生长 过 程 是 不 断 地 把 数据 进行 切 分 的 过 程 ,每 次 切 分 对 应 一 
个 问题 ,也 对 应 着 一 个 节点 。 对 每 个 切 分 都 要 求 分 成 的 组 之 间 的 "差异 最大。 各 种 决策 树 
算法 之 间 的 主要 区 别 就 是 对 这 个 “差异 ”衡量 方式 的 区 别 。 


9.5.2. 决策 树 分 类 实例 


下 面 在 R 环境 下 利用 神经 网 络 包 RSNNS 对 音 尾 花 (iris) 数 据 集 进行 分 类 ,并 画 出 决策 
树 。 运 行 该 例子 前 需 先 安装 RSNNS 包 。 
CD 加 载 程序 包 , 查 看 数据 的 结构 。 


> library("party") 
> data(iris) 


(2) 使 用 ctree() 创 建 决策 树 。 
ctree() 的 第 一 个 参数 是 方程 设置 ,定义 因 变 量 和 一 系列 自 变 量 。 


> iris_ctree<- ctree(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, 
data = iris) 


(3) 输出 树 。 


> print(iris ctree) 
Conditional inference tree with 4 terminal nodes 

Response: Species 
Inputs: Sepal. Length, Sepal. Width, Petal. Length, Petal. Width 
Number of observations: 150 
1) Petal. Length <= 1.9; criterion = 1, statistic = 140.264 

2) * weights = 50 
1) Petal. Length > 1.9 

3) Petal.Width<= 1.7; criterion = 1, statistic = 67.894 

4) Petal. Length <= 4.8; criterion = 0.999, statistic = 13.865 
5) * weights = 46 
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4) Peta1. Length > 4.8 
6) * weights = 8 
3) Petal.Width> 1.7 
7) * weights = 46 


(4) 绘制 树 ( 图 9. 6)。 


> plot(iris_ctree) 


Petal.Length 
p<0.001 


Petal. Width 


Petal.Length 
p<0.001 


< 

Node 2(n-50) Node 5(n-46) Node 6(n=8) Node 7(n-46) 

1 1 l 1 
0.8 0.8 0.8 0.8 
0.6 0.6 0.6 0.6 
0.4 0.4 0.4 04 
0.2 0.2 0.2 0.2 

0 0 0 0 

setosa setosa setosa setosa 

图 9.6 决策 树 


(5) 简化 树 ( 图 9.7) 。 


1 
Petal.Length 


p<0.001 
S19 219 
2 3 
n-50 Petal. Width 
J=(1, 0, 0) p=0.001 
<17 
4 
Petal.Length 
p<0.001 
x48 >4.8 
L5 6 
n-46 n-8 


y=(0. 0.978, 0.022) | — y-(0.0.5. 0.5) 


图 9.7 简化 决策 树 
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>plot(iris ctree, type= "simple") 


9.6 人 工 神 经 网 络 


9.6.1 三 层 前 馈 神经 网 络 原理 


人 工 神 经 网 络 (Artificial Neural Networks, ANNs) 是 一 种 模仿 动物 神经 网 络 行为 特 
征 ,进行 分 布 式 并 行 信息 处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系统 的 复杂 程度 ,通过 调整 内 
部 大 量 节点 之 间 相 互 连 接 的 关系 ,达到 处 理 信息 的 目的 。 人 工 神经 网 络 具有 自学 习 功 能 、 联 
想 存储 功能 和 高 速 寻 找 优化 解 的 能 力 , 可 以 为 人 类 提供 经 济 预测 .市场 预测 和 效益 预测 ,应 
用 前 途 很 远大 。 

最 广泛 应 用 于 预测 的 神经 网 络 是 三 层 单 向 传播 的 前 馈 神 经 网 络 ,由 一 个 输入 层 一 个 输 
出 层 和 一 个 隐 含 层 组 成 。 信 息 由 输入 层 进入 网 络 ,向 前 逐 层 传播 至 隐 含 层 ,再 由 输出 层 输 
出 。 前 馈 神 经 网 络 (Feedforward Networks) 也 称 为 多 层 感 知 器 (Multilayer Perceptron, 
MLP) 模 型 ,可 以 通过 增设 隐 含 层 结 点 数 来 一 臻 逼近 任何 连续 函数 ,神经 网 络 的 这 个 性 质 也 
被 称 为 多 层 感知 器 的 一 般 允 近 性 质 。 调 整 隐 含 层 数 、 神 经 网 络 输入 层 和 输出 层 的 激活 函数 ， 
可 以 形成 不 同形 式 的 前 馈 神 经 网 络 结构 。 单 个 隐 含 层 前 馈 神 经 网 络 的 结构 如 图 9. 8 所 示 。 


图 9.8 单个 隐 含 层 前 馈 神经 网 络 结构 模型 


神经 网 络 在 隐 含 层 和 输出 层 都 通过 激活 函数 (Activation Function) 来 处 理 上 一 层 向 下 
一 层 传输 的 处 理 加 工 信 息 。 选 用 不 同 的 激活 函数 ,可 以 使 得 神经 网 络 结构 表示 成 各 种 不 同 

在 隐 含 层 的 第 j 个 结 点 可 以 得 到 输出 信息 。 

m = aP (Shute +6") 
i=l 

其 中 ,zi(i 二 1,2,…,m) 为 输入 层 的 第 i 个 结 点 的 输入 变量 ; w Cj — 1.2. 028 S A 
层 到 隐 含 层 的 连接 权重 ; 6;” 为 隐 含 层 阐 值 ; g;”(，) 为 隐 含 层 激活 函数 ,一 般 采 用 
sigmoidal 函数 。 

联合 各 层 输入 信息 ,可 以 在 输出 层 得 到 输出 信息 。 

Jf(X,,W.b) = gf? { S wh o TU 
式 中 ,tw” 为 隐 含 层 到 输出 层 的 连接 权重 。6 Ju E BE. ei" C ) 为 输出 层 激 活 
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函数 ,输出 层 的 激活 函数 根据 应 用 的 不 同 而 异 , 如 果 用 于 函数 逼近 ,一般 采 用 线性 函数 形式 ; 
如 果 用 于 分 类 , 则 选用 阔 值 函数 。 


9.6.2 神经 网 络 分 类 实例 


分 类 是 三 层 前 馈 神 经 网 络 的 一 种 重要 应 用 ,下 面 利用 R 中 的 神经 网 络 包 RSNNS xF 
尾 花 (iris) 数 据 集 进 行 分 类 。 运 行 该 例子 前 需 安装 RSNNS 包 。 
(1) 载 入 程序 和 数据 。 


> library(RSNNS) 
> data(iris) 


(2) 定义 网 络 输入 。 


> irisValues = iris[,1:4] 


(3) 定义 网 络 输出 ,并 将 数据 进行 格式 转换 。 


> irisTargets = decodeClassLabels(iris[,5]) 


从 中 划分 出 训练 样本 和 检验 样本 ,默认 15% 划 分 为 测试 样本 ,此 处 划分 后 18% 的 数据 
为 测试 数据 。 


> iris = splitForTrainingAndTest(irisValues, irisTargets, ratio= 0.18) 


(4) 对 数据 进行 标准 化 。 


> iris = normTrainingAndTestSet(iris) 


(5) 利用 mlp 命令 执行 前 馈 反 向 传播 神经 网 络 算法 。 


> model = mlp(iris$ inputsTrain, iris $ targetsTrain, 
size= 3, learnFunc = "Quickprop", 
learnFuncParams = c(0.1, 2.0, 0.0001, 0.1), 
maxit- 100, inputsTest - iris $ inputsTest, 
targetsTest - iris $ targetsTest) 

Class: mlp- » rsnns 

Nunber of inputs: 4 

Number of outputs: 3 

Maximal iterations: 100 

Initialization function: Randomize Weights 

Initialization function parameters: — 0.3 0.3 

Learning function: Quickprop 
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Learning function parameters: 0.1 2 1e— 040.1 
Update function: Topological Order 

Update function parameters: 0 

Patterns are shuffled internally: TRUE 
Compute error in every iteration: TRUE 
Architecture Parameters: 

$ size 

[1] 3 


All members of model: 


[1] "nInputs" "maxit" "initFunc" 
initFuncParams ‘unc uncParams 
4] "initFuncP: 3 "learnFunc" "learnFuncB ad 
[7] "updateFunc" "updateFuncParams" "shufflePatterns" 
[10] "conputeIterativeError" "snnsObject" "archParams" 
[13] "IterativeFitError" "IterativeTestError" "fitted. values" 
[16] "fittedTestValues" "nOutputs" 


(6) 利用 上 面 建立 的 模型 进行 预测 。 


> predictions = predict(model, iris $ inputsTest) 


CT) 生成 混淆 矩阵 ,观察 预测 精度 。 


> confusionMatrix( iris $ targetsTest, predictions) 


predictions 
targets 2 3 
3 3 24 


从 上 面 混 淆 矩阵 可 以 看 出 : 行 之 和 27 为 测试 样本 数据 个 数 ,24 表示 第 三 类 数据 
(Species 中 的 virginica) # 24 个 预测 正确 , 另 有 3 个 预测 错误 归 类 为 第 二 类 数据 (Species 中 
的 versicolor), 

上 面 的 实例 是 对 排 好 序 的 数据 运用 神经 网 络 算法 进行 预测 。 当 然 , 可 以 将 原 营 尾 花 
Ciris) 数 据 集 的 顺序 打 乱 ,进行 数据 乱 序 的 预测 ,那么 需要 在 上 述 步骤 (1)、(2) 之 间 加 入 以 下 
代码 : 


> iris = iris[sample(1:nrow(iris),length(1:nrow(iris))),1:ncol(iris)] # 将 数据 顺序 打 乱 


此 时 训练 的 模型 信息 如 下 : 


Class: mlp 一 > rsnns 

Number of inputs: 4 

Number of outputs: 3 

Maximal iterations: 100 

Initialization function: Randomize Weights 
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Initialization function parameters: 一 0.3 0.3 
Learning function: Quickprop 

Learning function parameters: 0.1 2 1e— 04 0.1 
Update function: Topological Order 

Update function parameters: 0 

Patterns are shuffled internally: TRUE 
Compute error in every iteration: TRUE 
Architecture Parameters: 


$ size 

E113 

All members of model: 

[1] "nInputs" "naxit" 

[3] "initFunc" "initFuncParams" 

[5] “learnFunc" "learnFuncParams" 

[7] "updateFunc" "updateFuncParams" 

[9] "shufflePatterns" ^ "conmputelterativeError" 
[11] "snnsObject" "archParans" 


[13] "IterativeFitError" "IterativeTestError" 
[15] "fitted. values" "fittedTestValues" 
[17] "nOutputs" 


可 得 最 后 分 类 结果 如 下 : 


predictions 

targets 1 2 
1 100 
20 6 
30 0 


wnow 


由 混淆 矩阵 可 以 看 出 : 各 行 之 和 27 为 测试 样本 数据 个 数 。 第 一 行 表示 第 一 类 数据 
(Species 中 的 setosa) 有 10 个 预测 正确 ,没有 错误 划分 ; 第 二 行 表示 第 二 类 数据 (Species 中 
的 versicolor) 有 6 个 预测 正确 ,2 个 错 划 分 为 第 三 类 数据 ; 第 三 行 表示 第 三 类 数据 (Species 
中 的 virginica) 有 9 个 预测 正确 ,没有 错误 预测 划分 。 


9.7 支持 向 量 机 


9.7.1 支持 向 量 机 原理 


SVM(Support Vector Machine, 支 持 向 量 机 ) 法 是 建立 在 统计 学 习 理 论 基础 上 的 机 器 
学 习 方法 ,由 Vapnik 等 人 于 1995 年 提出 ,具有 相对 优良 的 性 能 指标 。 通 过 学 习 算 法 ,SVM 
可 以 自动 寻找 出 那些 对 分 类 有 较 好 区 分 能 力 的 支持 向 量 ,由 此 构造 出 的 分 类 器 可 以 最 大 化 
类 与 类 的 间隔 ,因而 有 较 好 的 适应 能 力 和 较 高 的 分 准 率 。 该 方法 的 特点 是 只 由 各 类 域 的 边 
界 样本 (支持 向 量 ) 的 类 别 来 决定 最 后 的 分 类 结果 ,因此 被 称 为 支持 向 量 机 。 

对 于 线性 可 分 的 数据 ,支持 向 量 机 算法 的 目的 在 于 寻找 一 个 超 平面 H CD ,该 超 平 面 可 
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以 将 训练 集中 的 数据 分 开 , 且 与 类 的 距离 最 大 , 故 SVM 法 也 被 称 为 最 大 边缘 (Maximum 
Margin) 算 法 。 待 分 样本 集中 的 大 部 分 样本 不 是 支持 向 量 , 移 去 或 者 减少 这 些 样本 对 分 类 
结果 没有 影响 。SVM 法 对 小 样本 情况 下 的 自动 分 类 有 着 较 好 的 分 类 结果 。 从 本 质 上 看 。 
SVM 避免 了 从 归纳 到 演绎 的 传统 过 程 ,实现 了 高 效 的 从 训练 样本 到 预测 样本 的 “ 转 导 推 
理 ”, 大 大 简化 了 通常 的 分 类 和 回归 问题 。 

对 于 线性 不 可 分 的 数据 ,SVM 的 方法 是 把 样本 “ 升 维 ”, 即 向 高 维 空间 做 映射 ,甚至 是 向 
无 穷 维 空间 做 映射 。 图 9. 9 是 一 个 升 维 的 图 例 。 


9G, xa)* Gd. Xixs 33) 
图 9.9 升 维 的 图 例 


升 维 后 再 在 高 维 空间 中 采用 线性 问题 的 方法 。SVM 通过 核 函 数 实现 到 高 维 空间 的 非 
线性 映射 ,从 而 可 以 解决 样本 空间 中 的 高 度 非 线 性 问题 。 图 9. 10 清晰 地 展示 了 非 线性 映射 


^" petto 人、 


样本 空间 特征 空间 
图 9.10 非 线性 映射 的 图 例 


9.7.2 支持 向 量 机 分 类 实例 


下 面 在 R 环境 下 运用 svm 对 iris 数据 集 进行 分 类 。 运 行 该 例子 需要 先 安装 e1071 这 个 包 。 
(1) 包 的 加 载 。 


> library(e1071) 


(2) 数据 集 。 


> data(iris) 
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(3) svm, 
同样 可 以 将 数据 集 进行 划分 ,也 取 后 27 个 数据 为 测试 数据 。 


>x<- subset(iris, select = - Species) 
> y<- Species 
> xtrain«- x[1:123,] 
» ytrain«- y[1:123] 
> xtest « - x[124:150, ] 
> ytest <- y[124:150] 
> model <— svm(xtrain, ytrain,decision.values = TRUE, probability = TRUE) 
> pred <- predict(model, xtest) 
> summary(model) 
Call: 
svm.default(x = xtrain, y = ytrain, probability = TRUE, decision.values = TRUE) 
Parameters: 
SVM - Type: C- classification 
SVM- Kernel: radial 
cost: 1 
gamma: 0.25 

Number of Support Vectors: 41 
(8 18 15) 
Number of Classes: 3 
Levels: 
setosa versicolor virginica 


(4) 将 样本 外 数据 应 用 于 模型 进行 预测 。 


> pred <- predict(mode1, xtest) 


(5) 以 table 形式 输出 预测 结果 。 


> table(pred, ytest) 


ytest 
pred setosa versicolor virginica 
setosa 0 0 0 
versicolor 0 0 4 
virginica 0 0 23 


从 上 述 table 可 以 看 到 ,在 27 个 测试 样本 预测 中 ,第 三 类 数据 virginica 有 23 个 预测 正 
确 , 有 4 个 预测 错误 , 误 归 类 为 第 二 类 数据 versicolor。 
同样 ,也 可 以 将 数据 顺序 打 乱 ,进行 乱 序 预测 。 在 (2)、(3) 步 之 间 加 入 如 下 代码 : 


> iris = iris[sample(1:nrow(iris), length(1:nrow(iris))),1:ncol(iris)] 


此 时 训练 的 模型 如 下 : 
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Call: 
svm.default(x = xtrain, y = ytrain, probability = TRUE, decision. values = TRUE) 
Parameters: 
SVM - Type: C- classification 
SVM- Kernel: radial 
cost: 1 
gamma: 0.25 

Number of Support Vectors: 45 
(17919) 
Number of Classes: 3 
Levels: 

setosa versicolor virginica 


可 以 得 出 最 终 预 测 结果 : 


ytest 
pred setosa versicolor virginica 
setosa 12 0 0 
Versicolor 0 8 1 
virginica 0 0 6 


从 上 述 table 可 以 看 到 ,在 27 个 测试 样本 预测 中 ,第 一 行 数据 表示 第 一 类 数据 12 个 全 
部 划分 正确 ;第 二 行 数据 表示 第 二 类 数据 有 8 个 划分 正确 ,1 个 被 错误 划分 为 第 三 类 数据 ; 
第 三 行 数据 表示 第 三 类 数据 有 6 个 且 全 部 划分 正确 。 

对 比 与 神经 网 络 的 划分 效果 ,可 以 看 出 ,利用 神经 网 络 和 支持 向 量 机 在 对 数据 集 进行 分 
类 预测 时 都 达到 了 很 好 的 预测 效果 , 且 预 测 效果 相当 。 
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信息 可 视 化 研究 的 是 信息 资源 的 可 视 化 呈现 ,有 利于 人 们 对 数据 信息 的 理解 和 分 析 。 
KREMA R 的 可 视 化 功能 ,展示 运用 R 进行 世界 地 图 、 中 国 地 图 及 公路 线 图 的 绘制 ,并 给 出 
一 个 城市 暴力 犯罪 分 布 的 可 视 化 实例 。 


10.1 绘制 地 图 


R 语言 提供 了 强大 的 可 视 化 绘图 函数 ,本 节 详 细 地 介绍 地 图 的 绘制 。 表 10. 1 和 表 10. 2 
分 别 列 出 了 常用 的 可 视 化 绘图 函数 及 可 视 化 绘图 概念 的 介绍 。 


表 10.1 可 视 化 绘图 部 分 函数 


í 数 x 能 
get_map() 获取 地 图 函数 ,可 基于 位 置 名 称 和 经 纬度 获取 地 图 
ggmap() 主要 画图 函数 ,可 对 比 参考 ggplot 
qmap() 快速 画图 ,整合 get_map 十 ggmap 


表 10.2 可 视 化 绘图 概念 介绍 


K s 功 能 

映射 (Mapping) 将 数据 中 的 变量 映射 到 图 形 属性 ,映射 控制 二 者 之 间 的 关系 
标 度 (Scale) 标 度 负责 控制 映射 后 图 形 属性 的 显示 方式 
几何 对 象 (Geom) — | 代表 在 图 中 实际 看 到 的 图 形 元 素 , 如 点 SHEE 
统计 变换 (Stat) 对 原始 数据 进行 某 神 计算 ,如 对 二 元 散 点 图 加 上 一 条 回归 线 
PEA aaa EE 元 素 , 坐 标 轴 可 以 进行 变换 以 满足 不 同 
Saas 数据 .映射 几何 对 象 .统计 变换 等 构成 一 个 图 层 ,图 层 允 许 用 户 一 步 步 构 建 图 
PE 形 ,方便 单独 对 图 层 进行 修改 

系 件 绘图, 将 数据 按照 菜 神 方 式 分 组 ,然后 分 别 经 图 ,分 面 就 是 控制 分 组 绘图 的 
分 面 (Facet) 

方法 和 排列 形式 
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10.1.1 世界 地 图 


首先 安装 maps 包 (install. packages("maps")) ,这 个 包 包含 世界 地 图 和 美国 地 图 的 数 
据 如 图 10. 1 所 示 。 绘 制 世界 地 图 的 R 代码 如 下 


> library(maps) 
>map("world", fill = TRUE, col = rainbow(200),ylim = c(- 60, 90), mar = c(0, 0, 0, 0)) 
title(" 世 界 地 图 ") 


图 10.1 世界 地 图 


maps 包 没有 中 国 地 图 的 数据 。 但 在 mapdata 包 中 存 有 中 国 地 图 的 数据 ,但 是 这 些 数据 


很 久 没有 更 新 了 。 


10.1.2 中 国 地 图 


本 节 主 要 介绍 在 R 环境 下 用 以 下 两 种 方式 绘制 中 国 地 图 。 
(1) mapdata 包 中 读 取 中 国 地 图 数据 2 如 图 10. 2 所 示 。 


> library(maps) 

> library(mapdata) 

>map("china", col = "red4", ylim = c(18, 54), panel.first = grid()) 
title(" 中 国 地 图 ") 


(2) 从 Google 获取 中 国 地 图 数据 9, 如 图 10. 3 所 示 。 


> library(ggmap) 

> library(mapproj) 

»map«- get map(location = 'China', zoom = 4) 
> ggmap(map) 


@ http://cos. name/2013/01/drawing-map-in-r-era/. 
© http: //cos. name/2013/01/drawing-map-in-r-era/. 
@ http: //cos. name/2013/01/drawing-map-in-r-era/. 
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图 10.2 ”中国 地 图 


图 10. 3 从 谷歌 获取 的 中 国 地 图 数据 


10.1.3 公路 线 图 


本 节 主 要 介绍 在 R 环境 下 绘制 广东 省 和 深圳 大 学 的 公路 线 图 。 
1. 广东 省 的 公路 线 图 
从 Google 上 获取 广东 省 的 公路 地 图 数据 ,如 图 10.4 所 示 。 


>map <- get map(location = 'Guangdong', zoom = 10, maptype = 'roadmap') 
> ggmap(map) 
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图 10.4 广东 省 公路 线 图 


2. 深圳 大 学 公路 线 图 
从 Google 上 获取 深圳 大 学 的 公路 地 图 数据 ,如 图 10. 5 所 示 。 


>map <- get map(location = 'Shenzhen University', zoom = 14,color = c("bw"), maptype = | 
roadmap') 


WSST a IRI 


(1393 — 11394 — 11395 — 11396 


113.97 
lon 


图 10.5 深圳 大 学 公路 线 图 
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10.2 ”可视化 实例 


10.2.1 数据 


1. 数据 集 Crime 
ggmap 包 中 自 带 数据 集 Crime, 查 看 数据 结构 。 


> library(ggmap) # MRE 
>str(crime) # 查看 数据 结构 
"data. frame' :86314 obs. of 17 variables: 


$ time : POSIXt, format: "2010 — 01— 01 14:00:00" "2010 — 01 - 01 14:00:00"... 

$ date : chr "1/1/2010" "1/1/2010" "1/1/2010" "1/1/2010" ... 

$ hour :int0000000000... 

$ premise : chr "18A" "13R" "20R" "20R" ... 

$ offense : Factor w/ 7 levels "aggravated assault",..: 4611133333... 

$ beat : chr "15E30" "13D10" "16E20" "2A30" ... 

$ block : chr "9600 — 9699" "4700 — 4799" "5000 — 5099" "1000 - 1099" ... 

$ street : chr "marlive" "telephone" "wickview" "ashland" ... 

$ type : chr "In" "rd" "1n" "st"... 

$ suffix sehr ES L... 

$ number $38E1121111111... 

$ month : Ord. factor w/ 8 levels "january"<"february"<..:1111111111... 

$ day : Ord. factor w/ 7 levels "monday"«"tuesday"«..:55 55555555... 

$ location  : chr "apartment parking lot" "road / street / sidewalk" "residence / house" " 
residence / house" ... 

$ address : chr "9650 marlive 1n" "4750 telephone rd" "5050 wickview ln" "1050 ashland st" 
$ lon : num —95.4 =95.3 一 95.5 -95.4 -95.4 ... 

$ lat : num 29.7 29.7 29.6 29.8 29.7... 


ft. 


2. 找到 一 个 合理 的 空间 范 
由 于 主要 关注 的 是 某 个 城市 暴力 犯罪 发 生 的 分 布 情况 ,因此 可 以 对 数据 设置 此 约束 条 
为 了 确定 边界 框 ,首先 使 用 gglocator() 返 回 经 度 和 纬度 的 坐标 值 ( 图 10.6) 。 


> qmap( 'houston', zoom = 13) 


> gglocator(2) + i& [P| 4 BE Fl £i BE AY Al Pn fi 
lon lat 

1 -95.39487 29.77949 

2 —95.39068 29.77342 
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图 10.6 获取 houston 地 图 数据 


3. 返回 符合 条 件 的 子 集 
考虑 严重 袭击 ,抢劫 .强奸 .谋杀 4 类 犯罪 ,筛选 符合 条 件 的 数据 返回 子 集 。 


# only violent crimes 
violent crimes <- subset(crime, offense != "auto theft" & 
offense != "theft" & offense != "burglary") 

# order violent crimes 
violent crimes $ offense <- factor( 

violent crimes $ offense, levels - 

c("robbery", "aggravated assault", 

"rape", "murder")) 
* restrict to downtown 
violent crimes <— subset(violent crimes, 

-95.39681 <= lon & lon<= -95.34188 & 
29.73631 <= lat & lat <= 29.78400) 


10.2.2 ggmap 
CD 查看 个 人 犯罪 在 哪些 地 方 发 生 ,生成 空间 气泡 分 布 图 ,如 图 10.7 所 示 。 


> theme_set (theme_bw(16)) 
>HoustonMap <— qmap("houston", zoom = 14,color = "bw", legend = "topleft") 
HoustonMap + 
geom_point(aes(x = lon, y = lat, 
colour = offense, size = offense), 
data = violent_crimes) 
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PA 10.7 犯罪 分 布 空间 气泡 图 


(2) 从 图 10. 7 所 示 的 气泡 图 可 以 发 现 一 个 问题 : 不 能 直观 地 从 图 中 感受 到 哪 种 暴力 犯 
罪 发 生 和 其 分 布 情况 。 因 此 ,可 以 通过 stat_bin2d() 绘 制 下 列 分 布 图 ,从 而 清晰 地 看 出 犯罪 
发 生 的 区 域 情况 和 频率 ,如 图 10. 8 所 示 。 


HoustonMap + 
stat_bin2d(aes(x = lon, y = lat, colour = offense, 
fill = offense), 
size = .5, bins = 30, alpha = 1/2, 
data = violent crimes) 


(3) 由 图 10. 8 可 以 看 出 ggplot2 绘图 的 强大 功能 。 如 果 忽略 offense 类 型 ,可 以 使 用 等 
高 线 图 绘制 犯罪 空间 分 布 图 ,也 可 以 获得 很 好 的 效果 。graphics 包 里 的 filled. contour() 也 
可 以 产生 一 个 纯色 填充 区 域 的 等 高 线 图 ,如 图 10.9 所 示 。 


> houston <— get_map("houston", zoom = 14) 
> HoustonMap <- ggmap( "houston", extent = "device", legend = "topleft") 


HoustonMap + 
stat_density2d( 
aes(x = lon, y = lat, fill = ..level.., 
alpha = ..level..), 


size = 2, bins = 4, data = violent_crimes, 
geom = "polygon") 


(4) 图 10. 9 的 重 又 可 以 有 非常 好 的 效果 ,但 是 它 所 展示 的 信息 也 有 可 能 被 重 又 部 分 隐 
藏 ,特别 是 在 使 用 有 颜色 的 地 图 时 更 加 常见 。 为 此 ,可 以 利用 inset() 在 地 图 上 插入 一 个 白 
色 背 景 的 重 又 图 样 。 
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> overlay <- stat density2d( 
aes(x = lon, y = lat, fill = ..level.., 
alpha = ..level..), 
bins - 4, geom - "polygon", 
data = violent crimes) 
HoustonMap + overlay + inset( 


grob - ggplotGrob(ggplot() * 

overlay * theme inset()), 
xmin = - 95.35836, xmax = Inf, 
ymin - - Inf, ymax - 29.75062 


图 10.9 犯罪 分 布 等 高 线 图 
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148, 
由 图 10. 10 可 以 看 出 犯罪 高 频 发 生 的 主要 三 大 地 区 。 这 三 个 对 应 的 区 域 确实 是 
Houston 经 常 发 生 犯 案 的 地 方 。 由 东 往 西 ,犯案 的 主要 原因 是 由 于 监狱 里 释放 的 犯人 在 此 


游荡 ,商业 总 站 有 许多 贫困 、 无 家 可 归 的 人 ,流动 人 口 较 大 的 地 方 。 


TL 


图 10.10 犯罪 分 布 等 高 线 图 


(5) 除了 单方 位 绘图 外 ,还 可 以 从 多 方位 去 绘制 ,如 可 以 通过 设置 ggmap() 和 qmap() 
中 的 参数 base layer 实现 。 这 在 时 空 数据 中 应 用 非常 广泛 ,例如 将 时 间 分 量 分 解 为 天 月 、 


季 、 年 等 。 


> houston <— get_map(location = "houston", 
zoom = 14, color = "bw", source = "osm") 


> HoustonMap < 一 ggmap( houston, 
base_layer = ggplot(aes(x = lon, y = lat), 


data = violent_crimes)) 
HoustonMap + 
stat_density2d(aes(x = lon, y = lat,fill = ..level.., alpha = ..level..), 
5, geom = "polygon", 


bins = 
data = violent_crimes) + 


scale fill gradient(low = "black", 
high= "red") + 


facet_wrap(~ day) 
10.11 展示 了 从 不 同 角度 分 解 等 高 线 图 。 从 图 中 可 以 看 出 ,星期 一 犯罪 发 生 频 率 最 
高 ,星期 五 排 第 二 。 城 市 中 心 酒吧 区 和 周边 区 活跃 的 夜生活 可 以 解释 星期 五 的 犯罪 发 生 频 


率 高 的 现象 。 星 期 一 犯罪 频率 高 也 许可 以 通过 监狱 周一 释放 犯人 最 多 来 解释 。 
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图 10.11 犯罪 分 布 分 面 图 


RHadoop 亲 例 分 析 
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RHadoop 的 基本 操作 


RHadoop 结合 了 R 与 Hadoop 两 方面 的 优势 ,使 得 数据 的 处 理 分 析 变 得 更 加 完美 。 

一 方面 ,R 是 一 个 可 以 对 数据 进行 统计 分 析 的 开源 软件 包 , 有 着 非常 强大 的 软件 包 基 
础 ,各 个 学 界 的 精英 人 士 会 在 R 的 平台 上 编写 相关 的 程序 包 , 并 且 程 序 开源 ,可 以 供 大 众 进 
一 步 完善 并 使 用 。 对 于 初学 者 来 说 ,R 提供 的 数据 分 析 平台 无 论 从 数据 读 取 ,还 是 方法 的 应 
用 都 十 分 简便 。 但 R 的 可 拓展 性 较 差 ,R 的 核心 技术 引擎 只 能 加 工 和 处 理 有 限 的 数据 量 ， 
一 旦 数据 量 较 大 ,R 的 运行 速度 会 大 大 降低 ,甚至 不 能 运行 。 

另 一 方面 ,Hadoop 在 处 理 大 数据 上 十 分 流行 ,其 优势 在 于 能 够 存储 处 理 TB 甚至 PB 
级 的 数据 。 那 么 ,将 R 和 Hadoop 结合 正好 取长补短 ,发 挥 两 者 的 优势 ,实现 大 规模 数据 的 
高 效 处 理 分 析 。 

下 面 介绍 一 些 在 RHadoop 平台 上 的 基本 操作 。 首 先 需 要 加 载 包 以 完成 Rhadoop 环境 
的 准备 工作 。 

CD 确定 工作 路 径 。 


> getwd() 


(2) 加 载 相应 的 软件 包 , 以 及 初始 化 hdfs。 


> library(rhdfs) 
> hdfs. init() 
> library(rmr2) 


11.1 数据 文件 的 读 取 


在 Rhadoop 的 环境 下 读 取 数 据 的 原理 与 在 R 中 读 取 数 据 一 致 。 首 先 用 getwd() 命 令 
获取 R 的 工作 路 径 ,把 数据 文件 存 人 工作 目录 中 。 然 后 运用 R 命令 进行 数据 文件 的 读 取 ， 
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例如 读 取 txt 文件 使 用 命令 read. table(); BER csv 文件 使 用 命令 read. csv() 等 。 下 面 以 读 
取 goods. csv 数据 文件 为 例 。 


(1) 读 取 数 据 。 
> data < — read. csv("goods. csv", header = T) 
(2) 把 数据 加 载 到 HDFS 中 并 读 取 。 
»data.dfs«- to.dfs(keyval(1,data)) #¥ data 加 载 到 HDFS 中 并 赋值 给 data. dfs 
>from. dfs(data.dfs) # Á HDFS 中 读 取 data. dfs 
Skey 
人 
Sval 
user_ID item_ID item_Reting 
1 1 10 5.0 
2 1 102 3.0 
3 1 103 2.5 
4 2 10 2.0 
5 2 10 2.5 
6 2 103 5.0 
7 2 104 2.0 
8 3 10 20 
9 3 104 4.0 
10 3 105 4.5 
11 3 10 5.0 
12 4 10 5.0 
13 4 103 3.0 
14 4 104 4.5 
15 4 106 4.0 
16 5 10 40 
17 5 100 3.0 
18 5 10 2.0 
19 5 104 4.0 
20 5 10 3.5 
21 5 106 4.0 


11.2 包 的 加 载 


RHadoop 环境 中 R 包 的 安装 和 加 载 命 令 与 R 环境 中 的 相同 ,下 面 以 安装 加 载 作 图 软 
件 包 ggplot2 包 为 例 ,并 简要 说 明 ggplot2 包 在 直方 图 和 密度 函数 图 的 应 用 。 使 用 ggplot2 
软件 包 加 载 一 份 钻石 的 数据 ,并 对 钻石 的 数据 分 别 作出 直方 图 (如 图 11. 1 所 示 ) 和 密度 函数 
图 (如 图 11. 2 所 示 ) ,操作 命令 如 下 : 
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图 11.1 直方 图 


> install. packages( "ggplot2") 

> library(ggplot2) 

> data(diamonds) ; set. seed(42) 

> small <- diamonds[ sample(nrow(diamonds), 1000), ] 

> ggplot (small) + geom histogram(aes(x- price, fill =cut)) 


0.00020 


0.00015 at 
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— Ideal 


0.00005 


0.00000 
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price 


图 11.2 密度 函数 图 


> ggplot(small) + geom histogram(aes(x= price, fill- cut)) 


11.3 基本 函数 


在 RHadoop 环境 中 ,R 软件 的 相关 操作 都 可 以 运行 。 表 11. 1 列举 了 一 些 R 中 的 基本 
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操作 函数 ,可 以 帮助 初学 者 尽快 了 解 RHadoop。 
表 11.1 R 软件 的 一 些 基本 函数 


PR 数 用 法 
getwd() 查看 当前 的 工作 目录 
setwd() 设 定 当前 的 工作 目录 
helpO/? 帮助 函数 
example() 展示 函数 的 用 法 
help. search("")/2?"" 查找 一 个 不 太 确 定 的 内 容 
help(package=) 返回 整个 包 的 基本 信息 


在 RHadoop 中 ,数据 的 读 取 与 R 软件 有 一 些 区 别 ,具体 读 取 数 据 的 函数 如 表 11. 2 
所 示 。 
表 11.2 R 与 RHadoop 读 取 数 据 的 函数 比较 


Bo 数 用 法 

read. table() 读 入 文本 数据 
read. csv() BEA csv 格式 文件 

R 软件 odbcConnectExcel() 读 取 Excel 数据 文件 
sqlFetch() 读 取 Excel 数据 表单 
write. csv) 输出 csv 文件 
to. dfs() 输入 数据 到 HDFS 

RHadoop from. dfs() 从 HDFS 中 导出 数据 

keyval( key ,val) 创建 及 提取 键 值 对 


在 RHadoop 中 关键 是 要 理解 MapReduce 的 工作 原理 , Hadoop 不 是 一 个 对 所 有 大 数 
据 问题 的 通用 解决 方案 。 它 只 是 把 预 处 理 的 大 数据 分 割 成 小 块 ,并 通过 分 布 式 的 服务 实现 
并 行 处 理 而 已 ,这 使 得 在 处 理 大 数据 时 可 以 节省 更 多 的 时 间 将 成 本 降低 。 

Hadoop 的 数据 处 理 进程 包括 多 个 任务 ,这 些 任 务 可 以 帮助 在 输入 数据 集中 得 到 最 终 
的 输出 数据 ,主要 包括 : 

O 预 载 数据 到 HDFS E. 

@ 通过 调用 Driver 来 运行 MapReduce。 

© Map 输入 数据 的 读 取 ,该 任务 会 把 数据 进行 分 割 并 执行 Map 内 部 的 逻辑 ,最 后 生成 
中 间 阶 段 的 键 值 对 。 

@ 执行 合并 (Combiner) 和 重组 (Shuffle) 阶段 主要 用 于 优化 Hadoop MapReduce 
进程 。 

© 排序 (Sorting) 并 提供 中 间 数 据 ( 键 值 对 数据 ) 给 Reduce 阶段 作为 输入 ,然后 执行 
Reduce 阶段 的 程序 。Reduce 执行 单元 处 理 这 些 分 割 的 键 值 对 数据 ,并 依据 Reduce 内 的 函 
数 迎 辑 对 该 数据 进行 聚集 (Aggregate) 。 

把 排序 后 的 最 终 数 据 存储 于 HDFS 文件 系统 中 。 
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12.1 回归 分 析 


弗朗西斯 .高 尔 顿 在 1877 年 发 表 关于 种 子 的 研究 结果 ,指出 “回归 到 平均 值 " 现 象 的 存 
在 。 他 曾 对 亲子 间 的 身高 做 研究 ,发 现 父母 的 身高 虽然 会 遗传 给 子女 ,但 子女 的 身高 却 有 逐 
渐 “ 回 归 到 中 等 ( 即 人 的 平均 值 )” 的 现象 ,这 个 概念 与 现代 统计 学 中 的 “回归 ”并 不 相同 ,但 却 
是 “回归 ”一 词 的 起 源 。 在 此 后 的 研究 中 ,高 尔 顿 第 一 次 使 用 了 相关 系数 的 概念 。 

卡尔 "皮尔 逊 继 弗朗西斯 ， 高 尔 顿 之 后 发 展 了 与 回归 相关 的 理论 ,得 到 母体 的 概念 ,并 
认为 统计 研究 不 是 样本 本 身 ,而 是 根据 样本 对 母体 的 推断 。 由 此 导出 了 拟 合 优 度 检验 : 作 
为 样本 取出 的 若干 个 体 分布 是 否 与 母体 分 布 一 致 。 此 外 ,他 还 提出 了 净 相 关 、 复 相关 、 总 相 
关 、 相 关 比 等 概念 ,提出 了 计算 复 相 关 和 净 相 关 的 方法 及 相关 系数 的 公式 ,对 统计 学 理论 和 
回归 分 析 方 法 的 发 展 作出 了 重要 的 贡献 。 

从 最 初 的 理论 提出 到 现在 ,回归 分 析 已 经 发 展 得 非常 成 熟 。 在 实际 应 用 中 , 它 是 数理 统 
计 学 与 实际 问题 联系 最 为 紧密 ,应 用 范围 最 广泛 ,收效 最 为 显著 的 统计 分 析 方 法 ,也 是 分 析 
数据 ,寻求 变量 之 间 关系 的 有 力 工 具 , 在 生物 、 医 学 \ 农 业 \ 林 业 、 经 济 、 管 理 ` 金 融 、 社 会 等 领 
域 应 用 广泛 。 


12.1.1 回归 分 析 原 理 


回归 分 析 是 研究 被 解释 变量 ( 因 变量 ) 与 解释 变量 ( 自 变量 ) 之 间 相 互 依赖 的 定量 关系 的 
一 种 统计 分 析 方 法 。 按 照 涉及 的 解释 变量 的 多 少 , 可 分 为 一 元 回归 分 析 和 多 元 回归 分 析 ; 
按照 因 变 量 和 自 变量 之 间 的 关系 类 型 ,可 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 。 如 果 在 回 
归 分 析 中 只 包括 一 个 自 变量 和 一 个 因 变量 , 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ,这 种 回归 
分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 量 , 且 因 变量 和 
自 变 量 之 间 是 线性 关系 , 则 称 为 多 元 线性 回归 分 析 。 
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回归 分 析 有 如 下 基本 假定 : 

(D 解释 变量 是 确定 型 变量 。 

© 随机 干扰 项 ja 符合 零 均 值 .同方 差 ,无 序列 相关 性 ,ECyi) 二 0,var(pi) 二 0? , cov (Cyu s 
uj) - 0G. 

© 随机 干扰 项 与 解释 变量 之 间 不 相关 , 即 cov (pe; s) 70 G5). 

@ 随机 干扰 项 服从 零 均值 .同方 差 \ 零 协 方差 的 正 态 分 布 , 即 yy NC. 9). 

C) 随 着 样本 容量 的 无 限 增加 ,解释 变量 X 的 样本 趋 于 一 个 有 限 的 常数 。 

@ 回归 模型 是 正确 设 定 的 。 

现实 生活 中 的 很 多 数据 不 是 严格 符合 这 些 基 本 假定 的 ,通常 的 回归 分 析 更 多 的 是 近似 
的 理论 分 析 。 

线性 回归 是 最 基本 的 回归 分 析 方 法 。 所 谓 线性 回归 方程 ,实际 上 就 是 将 一 系列 测量 数 
据 通过 数学 方法 来 处 理 以 确定 相应 的 直线 方程 : 

y=ar+b 

只 要 求解 出 直线 方程 的 两 个 系数 a 和 65, 即 确立 了 拟 合 方程 。 通 常 求解 拟 合 方程 未 知 
el 平均 法 、 最 小 二 乘法 ,其 中 最 小 二 乘法 所 得 拟 合 直 线 精度 最 高 ,平均 法 
次 之 ,端点 法 较 差 。 这 里 仅 介绍 一 下 最 小 二 乘法 的 求解 公式 ,这 也 是 应 用 最 广泛 的 方法 。 

最 小 二 乘法 的 ! Se yi 与 拟 合 直线 y= 二 a 十 bx 上 对 应 的 估计 值 yw 的 
残 差 的 平方 和 为 最 小 。 晶 


>) Ly; — (a + bz,)]° = min 


tt v: 的 值 最 小 ,只 要 使 a。 和 6 的 偏 导 数 为 0 即 可 解 得 a 和 6 的 值 .经 过 求 导 之 后 得 
到 a 和。 的 计算 公式 ， 


plam 


(Èa) -a)i 


12.1.2. 线性 回归 分 析 案 例 


在 数据 量 较 少 的 情况 下 ,线性 回归 分 析 是 可 以 手动 计算 的 ,但 是 在 数据 量 较 多 时 ,一 般 
采用 统计 软件 来 求解 。 很 多 统计 软件 ,如 SPSS, Eviews, stata, R 都 有 相关 的 程序 来 解决 回 
归 分 析 问 题 ,但 是 随 着 社会 的 发 展 ,现在 步 和 人 了 大 数据 时 代 , 一 般 的 统计 软件 对 于 数据 量 非 
常 大 的 情况 往往 计算 的 效率 较 低 。Rhadoop 是 R 软件 和 Hadoop 平台 的 结合 , 既 能 很 好 地 
发 挥 R 语 言 的 特长 ,又 可 借助 Hadoop 平 台 在 大 数据 领域 大 展 拳脚 。 本 文 主要 研究 线性 回 
归 分 析 在 RHadoop 集群 环境 下 的 求解 。 

线性 回归 模型 一 般 表示 如 下 : 


第 12 章 ”RHadoop 环 境 下 案例 分 析 


Y = ate 


其 中 ,Y 是 由 自 变量 X 推算 应 变量 Y 的 估计 值 ,a.6 为 待 估 系 数 ,0 也 称 为 样本 的 回归 系 
数 , 这 个 案例 就 是 在 RHadoop 集群 环境 下 对 回归 系数 矩阵 进行 求解 。 具 体 代码 如 下 : 
CD 设置 随机 数 的 状态 。 


set. seed(1234) 


(2) 大 数据 集 的 生成 。 


X <- matrix(rnorm(200000),ncol = 10) 
X. index <- to.dfs(cbind(1:nrow(X),X)) 
Y<- as.matrix(rnorm(20000)) 


(3) 定义 map 作业 1 中 执行 单元 的 函数 。 


mapperl < 一 function(.,Xi){ 
Xi«- Xi[, -1] 
keyval(1,list(t(Xi) % * % Xi)) 
) 


(4) 定义 map 作业 2 中 执行 单元 的 函数 。 


mapper2 <- function(.,Xi)( 
Yi «- Y[Xi[,1],] 
Xi«- Xi[, -1] 
keyval(1,list(t(Xi) & * % Yi)) 
) 


(5) 定义 reduce 执行 单元 中 使 用 的 函数 ,用 于 计算 map 执行 单元 输出 的 总 和 。 


Sum. reduce <— function(. , YY) ( 
keyval(1, list(Reduce('+ ',YY))) 


(6) 用 Mapreduce 作业 1 计算 Xt * X. 
(D 调用 mapreduce 计算 框架 ,产生 Xt * X ff mapreduce 作业 。 


MP1 <- mapreduce(input = X. index, map = mapperl, 
reduce - Sum. reduce, combine - TRUE) 


© 将 计算 结果 从 hdfs RA R 环境 中 ,并 取出 相应 的 数值 。 


XtX <- values(from. dfs(MP1))[[1]] 
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第 (6) 步 运行 的 结果 矩阵 ,整理 后 如 下 s 


n1 [2] [3] [04] [sJ [6] [7] [8] [9] [10] 
[1] | 20075.68 | —115.57 | 一 94.09 134.96 115.43 64.23 33.03 165.55 =67.41 183. 15 
[2] | 一 115.57 | 19986.5 —76.73 |-220.89 9.79 | 一 246.38 |—131.03 | —136.93 | 一 199.92 —91.62 
[3] | —94.09 | —76.73 | 20039.59 14.77 27.83 | —25.87 | 一 93.37 45.84 =91.7 — 18.26 
C4] 134.96 | —220.89 14.77 |19918.6 40.74 72.02 | 一 98.88 236. 45 97.15 —52.71 
[51 115.43 9.79 27.83 40.74 |19810.18 | —73.75 | 一 49.44 —40.27 53.47 | 一 302.53 
[6] $4.23 | —246.38 | —25.87 72.02 | —73.75  [19532.87 113.9 69.74 271.77 —96.7 
[7] 33.03 | 一 131.03 | 一 93.37 | —98.88 | —49.44 113.9 — [19778.85 105.61 —86. 11 177.97 
[8] 165.55 | —136.93 45.84 236.45 | —40.27 69.74 105.61  |20316.07 =31,1 107.76 
[9] | —67.41 | —199.92 | 一 91.7 97.15 53.47 271.77 | —86.11 =31.1 19595. 15 77.68 
[10]| 18.15 | 一 91.62 | 一 18.26 | 一 52.71 | 一 302.53 | —96.7 177.97 107.76 77.68 | 20109.66 


(7) 用 Mapreduce 作业 2 计算 Xt ° Y. 


MP2 <- mapreduce( input = X. index, map = mapper2, 


reduce - Sun. reduce, conbine - TRUE) 
XtY <- values(from.dfs(MP2))[[1]] 


同 理 ,第 (7) 步 运行 的 结果 和 矩阵 ,整理 后 如 下 : 


(8) 计算 回归 的 系数 值 。 


X.X" = 


— 40. 62 
— 123. 06 
26.97 

— 103. 15 
58.28 

— 210. 08 
129. 58 

— 122.07 
— 199. 37 
325.01 


solve(XtX, XtY) 


最 终 整 理 后 得 到 系数 矩阵 如 下 : 
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至 此 ,完成 了 在 RHadoop 环境 下 的 线性 回归 分 析 。 
12.2 Logistic 分 析 


Logistic 逻辑 回归 属于 概率 型 非 线性 回归 , 它 研 究 的 是 二 分 类 观察 结果 与 一 些 影响 因 
素 之 间 关 系 的 一 种 多 变量 分 析 方法 ,本 质 上 可 与 多 重 线性 回归 一 样 属于 广义 线性 模型 。 在 
广义 线性 模型 这 一 家 族 中 的 模型 形式 基本 上 都 是 差不多 的 ,不 同 的 就 是 因 变量 不 同 , 如 果 是 
连续 的 ,就 是 多 重 线性 回归 ; 如 果 是 二 项 分 布 , 就 是 Logistic 回归 ; 如 果 是 Poisson 分 布 , 就 
是 Poisson 回归 ; 如 果 是 负 二 项 分 布 , 就 是 负 二 项 回归 ,等 等 。 只 要 注意 区 分 它们 的 因 变 量 
就 可 以 了 。 

Logistic 回归 的 因 变 量 可 以 是 二 分 类 的 ,也 可 以 是 多 分 类 的 ,但 是 二 分 类 的 更 为 常用 ， 
也 更 加 容易 解释 。 所 以 实际 中 最 为 常用 的 就 是 二 分 类 的 Logistic 回归 。 


12.2.1 Logistic 分 析 原 理 


考虑 具有 个 独立 变量 的 向 量 x 二 (zi ,zs，… ,zx,), 设 条 件 概 率 PCy = 1130 = p 为 根据 
观测 值 相对 于 某 事件 zx 发 生 的 概率 。 那 么 Logistic 回归 模型 可 以 表示 为 


Ply = 1 | z) = x(z) = 


1 
lite 
这 里 yC) = Ly HW Logistic 888, JG GO =u bern to as, IBA fE 
zc ATE y 不 发 生 的 概率 为 
P(y= 0| z) 1—P(y 1|» 1 
所 以 事件 发 生 与 不 发 生 的 概率 之 比 为 


P(y = 1 | z) = =Ë = oat 
Pl(y=0|zx) 1-p 


这 个 比值 称 为 事件 的 发 生 比 ,对 发 生 比 取 对 数 得 到 
n 人 (2)= g(z)= w + xz, +e wT, 

可 以 看 出 Logistic 回归 都 是 围绕 一 个 Logistic 函数 展开 的 ,这 个 Logistic 函数 也 被 称 
为 Logit 转换 , 接 下 来 就 讲解 一 下 如 何 用 极 大 似 然 估计 去 求解 回归 模型 中 的 参数 。 

假设 有 m 个 观测 样本 ,观测 值 分 别 为 y ys et Ym BE pi 二 P(y; 二 1|zi) 为 给 定 条 件 下 
得 到 y,=1 的 概率 ,同样 地 ,y; 二 0 的 概率 为 P(y; 二 0|z;) 二 1 一 p;, 所 以 得 到 一 个 观测 值 的 概 
率 为 P(yi) = ph (1 一 pi)'*%*。 因 为 各 个 观测 样本 之 间 相 互 独立 ,所 以 它们 的 联合 分 布 为 各 
边缘 分 布 的 乘积 。 得 到 似 然 函 数 为 


Low) = [[ (Gi»* a ala) 


HUS RAT 9 EL Jof ih k — UAR ER BC LR 8 o He e DP PEAR ih 
参数 wo wr ,… sw, ,使 得 L(w) 取 得 最 大 值 。 对 函数 L(w) 取 对 数 得 到 


1 1 
Ite™ Te 


InLGo) = >) Cyln[z(z,)] + A — yO1n[1 — (as) D 
i=1 
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继续 对 这 十 1 个 w; 进 行 求 偏 导 , 得 到 十 1 个 方程 。 比 如 现在 对 参数 ww 求 偏 导 , 得 到 
Ton ) Xs [x —(2:)]— 0 
这 样 问题 就 转化 为 解 这 十 1 rE RI E. 7; FE CK E — W BE A TH E, 
‘iis 3€ FH S8 BZ 28 09 28 (CJ A AE a — Pr dE 8384028. nf H 3 SBE ORR 80 , TO UE 
解 一 下 如 何在 RHadoop 的 环境 下 编程 求解 Logistic 回归 ,并 附 上 R 环境 下 的 求解 情况 与 
ZT lk. 


12.2.2 Logistic 分 析 案 例 


本 例 来 自 于 John Maindonald 所 著 的 《Data Analysis and Graphics Using R) 一 书 ,其 中 
所 用 的 数据 集 是 anesthetic。 数 据 集 来 自 于 一 组 医学 数据 ,主要 是 调查 了 30 例 患 者 在 做 手 
术 之 前 的 15 分 钟 给 予 预定 水 平 的 麻醉 剂 ,观察 患者 在 这 15 分 钟 的 表现 。 是 否 有 如 肌肉 抽 
搞 和 身体 扭曲 等 的 表现 。 如 果 有 上 述 表 现 统称 为 有 移动 ,其 中 变量 conc 表示 麻醉 剂 的 用 
Tit move 则 表示 手术 病人 是 否 有 所 移动 ,而 用 nomove 作为 因 变 量 ,因此 研究 的 重点 在 于 
conc 的 增加 是 否 会 使 nomove 的 概率 增加 。 下 面 将 在 RHadoop 的 环境 下 编程 实现 。 

(1) 加 载 相应 的 包 。 


library(rJava) 
library(rmr2) 


(2) 构建 数据 框 存储 数据 ,并 读 入 hdfs 中 。 


anestot <- data. frame(conc = c(0.8,1.0,1.2,1.4,1.6,2.5), 

move = c(6,4,2,2,0,0), 

nomove = c(1,1,4,4,4,2), 

total = c(7,5,6,6,4,2), 

prop = c(0. 1428, 0. 2000, 0. 6667, 0. 6667, 0. 9999, 0. 9999) ) 
anestot < 一 to.dfs(anestot) 


(3) 定义 map 函数 ,作为 在 mapreduce 中 的 准备 。 


mapperl <- function(. , data) { 
y= log(data[,5]/(1- data[,5])) 
x= data[,3] 
keyval(1,list(t(x) %* * %y)) 
) 
mapper2 «- function(.,data)( 
x= data[,3] 
keyval(1,list(t(x) % * %x)) 
) 
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(4) 运行 Mapreduce 并 输出 结果 。 


MP1 <— mapreduce( input = anestot, map = mapperl, combine = TRUE) 
Y«- values(from.dfs(MP1))[[1]] 
MP2 <- mapreduce(input = anestot, map = mapper2, combine = TRUE) 
X«- values(from.dfs(MP2))[[1]] 


(5) 用 solve 函数 求解 出 方程 的 系数 。 


solve(X,Y) 


最 终 得 到 Logistic 方程 为 


In( prop )= 1. 067conc 
1 一 prop 


至 此 ,完成 了 在 RHadoop 中 Logistic 回归 的 实现 。 


12.3 判别 分 析 


判别 分 析 是 一 种 统计 分 析 方法 ,该 方法 是 多 变量 统计 分 析 中 用 于 在 已 知 一 些 对 象 分 类 
的 情形 下 确定 新 对 象 所 属 的 类 型 。 判 别 分 析 的 理论 依据 是 根据 若干 个 指标 的 实际 数据 对 已 
知 分 类 的 样本 建立 判别 函数 ,从 而 预测 新 对 象 的 分 类 。 判 别 函 数 指 的 是 一 种 统计 模型 ,是 对 
新 样本 和 已 知 分 类 样本 的 相似 程度 的 度量 。 要 判别 新 样本 的 类 型 ,除了 判别 函数 外 ,还 需要 
建立 判别 规则 。 根 据 判 别 规则 的 不 同 ,可 以 将 判别 分 析 分 成 两 类 : Fisher 判别 和 Bayes 判 
别 。Fisher 判别 分 析 的 判别 规则 是 确定 性 的 ,而 Bayes 判别 分 析 的 判别 规则 是 统计 性 的 , 判 
别 新 对 象 类 型 时 涉及 概率 性 质 。 线 性 判别 分 析 属 于 Fisher 判别 分 析 ,是 一 种 确定 性 判别 方 
法 ,在 对 新 对 象 进行 归 类 时 一 般 只 需要 考虑 判别 函数 。 


12.3.1 线性 判别 分 析 原 理 


线性 判别 分 析 (Linear Diseriminant Analysis,LDA) 是 一 种 经 典 的 特征 提取 方法 ,该 方 
法 从 高 维特 征 空间 中 提取 出 最 具 代 表 性 的 低 维特 征 , 通 过 线性 变换 将 研究 对 象 映 射 到 低 维 
空间 ,使 得 不 同类 别 的 样本 尽量 分 开 , 相 同类 别 的 样本 尽 可 能 聚集 。 

线性 判别 分 析 算 法 原理 : 

设 XO = CaP sa? ima T im 1,2, c J=1,2,-- m 为 已 知 分 类 的 样本 ,其 中 < 
表示 样本 分 类 数 ,n; 表示 第 i 类 样本 的 数目 ,k 表示 每 个 对 象 的 指标 变量 。 

CO 第 i 类 样本 的 均值 : x = L > zw 


i z€ dassi 


(2) 总 体 样本 的 均值 :x 一 L2 3220 


i=1 j=1 


O KERE: S, — n.i? 一 1 (P 一 Ar 
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CD 类 内 离散 度 矩 阵 : S. 一 >) >) (z 久 一 pp ) Gl) — a)? 
线性 判别 分 析 就 是 要 选取 使 得 样本 类 间 离 散 度 与 类 内 离散 度 的 比值 达到 最 大 的 特征 。 
Fisher 线性 判别 的 准则 函数 定义 如 下 : 
w'S,w 
w Su w 
通过 最 大 化 准则 函数 , 即 计算 使 得 J(o) 取 得 极 大 值 的 向 量 w” o e 的 求解 一 般 运 用 
Lagrange 乘 子 法 ,具体 的 求解 过 程 如 下 : 
Zo" Sao =a rh a 为 非 零 常 数 ,Lagrange 函数 定义 如 下 : 
L(w.d) = @!S,a — À Cw Sio — a) 
Hep a H Lagrange EF. X ERK o KRT: 
9LGo À) 
ow 


令 偏 导数 为 0, 则 Sum * —AS uw = 二 0, 即 Se ` =AS ew” ,其 中 w* 是 J Go ) 的 极 值 解 。 

如 果 S. 非 奇 异 , 即 可 逆 , 上 式 两 边 左 乘 SL! ,得 到 SL Sun =w , 则 要 计算 J Go ) 的 极 
值 w” ,就 转换 成 了 求解 矩阵 SQ S, 的 特征 值 问 题 ,w" 即 为 S'S, 最 大 特征 值 对 应 的 特征 向 
量 。 至 此 求解 得 到 了 线性 判别 函数 的 系数 , 即 判别 系数 ,得 到 判别 函数 ,再 建立 临界 值 作为 
判别 的 标准 ,完成 对 样本 的 判别 归 类 。 值 得 注意 的 是 ,进行 线性 判别 分 析 必 须 保证 类 内 离散 
度 矩 阵 S. 非 奇 异 。 


12.3.2. 线性 判别 分 析 案例 


线性 判别 分 析 法 的 一 般 步 又 如 下 : 

CD 计算 每 类 样本 的 均值 .总体 样本 的 均值 。 

(2) 计算 类 间 离 散 度 矩 阵 、 类 内 离散 度 矩 阵 。 

(3) 建立 线性 判别 的 准则 函数 ,确定 判别 函数 的 系数 ,得 到 判别 函数 。 
(4) 建立 临界 值 ,确定 判别 标准 。 

(5) 根据 判别 函数 及 判别 标准 对 新 样本 进行 判别 归 类 。 

该 算法 的 RHadoop 实现 : 

(1) 加 载 包 ,初始 化 dfs。 


J(w) = arg max = [ti ,ws S2] 


= Syw — Sw 


library("rhdfs") 
hdfs. init() 
library("rmr2") 


(2) 加 载 已 知 分 类 的 数据 ,本 例 数据 来 自 王 斌 会 所 著 的 《多 元 统计 分 析 及 R 语言 建 模 》 
一 书 ,包括 20 个 关于 天 气 的 对 象 , 每 个 对 象 包含 两 个 指标 : 湿 温 差 和 气温 差 ,根据 这 两 个 指 
标 将 对 象 分 成 了 两 类 : 雨天 (1) 和 上 晴天 (2)。 


K<—satrix(c( = 1.9, —6.9,5.2,5.0,7.3,6.8,0. 9, —12.5,1.5,3.8,0.2, — 0. 1,0. 4,2. 7,2.1, - 
4,6, —1.7, —2.6,2.6, —2.8, 3. 2,0. 4,2. 0, 2. 5, 0. 0, 12. 7, — 5.4, — 2.5/1, 3,6.8, 6. 2, 7,5,14. 6, 
8.3,0.8,4.3,10.9,13.1,12.8,10. 0), nrow = 20, ncol = 2) 
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x= bib 
Y«- cbind(X,c) 


(3) 定义 mapper] 函数 ,对 数据 进行 线性 判别 分 析 , 得 到 线性 判别 函数 系数 。 该 函数 包 
括 总 体 样本 均值 .类 样本 均值 .类 间 离 散 矩 阵 、. 类 内 离散 矩阵 及 判别 函数 系数 的 计算 方法 的 


mapper1 = function(.,Y)( 
Yi <- Y[, - ncol(Y)] 
c<- Y[,ncol(Y)] 
uc <- unique(c) 


u<- apply(Y[, - ncol(Y)],2,mean) # 总 体 样本 均值 


keyval(1, V1)# 线 性 判别 函数 系数 v1 


(4) 定义 mapper2 函数 ,得 到 线性 判别 的 判别 效果 。 该 函数 根据 得 到 的 判别 函数 对 原 
始 数据 进行 重新 分 类 ,得 到 判别 的 正确 率 , 从 而 确定 线性 判别 的 判别 效果 。 


mapper2 = function(. , Y) ( 
Y1«- Y[, - ncol(Y)] 
D<- Y1 $*5* V1 
Newc «- c() 
for(b in 1:nrow(D))( 
if(D[b, ] - nean(D)» = 0) Newc[b] <- 1 else Newc[b] <- 2 
}# 新 的 分 类 


keyval(1,qr)# 判 别 的 正确 率 
1 


(5) 加 载 需要 判别 分 类 的 数据 。 


NewX < 一 matrix(c( 一 1.8,0.3, -0.2,3.3,6.3,7.6),3,2) 


(6) 定义 mapper3 函数 ,对 数据 进行 判别 分 类 。 该 函数 实现 了 对 未 知 类 别 的 数据 进行 
判别 分 类 。 
(7) 调用 mapperl 函数 ,得 到 线性 判别 系数 。 


mpl < 一 mapreduce( input = to. dfs(Y),map = mapper1, combine = TRUE) 
V1 <- values(from. dfs(mp1) ) 
Vi # 线 性 判别 系 
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(8) 调用 mapper2 函数 ,得 到 线性 判别 分 析 的 判别 效果 。 


mp2 < 一 mapreduce( input = to. dfs(Y), map = mapper2, combine = TRUE) 
qr <- values(from. dfs(mp2) ) 
qr # 判 别 的 正确 率 


(9) 调用 mapper3 函数 ,得 到 线性 判别 分 析 结 果 。 


mp3 < 一 mapreduce( input = to. dfs(NewX), map = mapper3, combine = TRUE) 
NXc <- values(from. dfs(mp3) ) 


NXc # #1 Sill ADS SUR 
线性 判别 分 析 算 法 结果 分 析 : 
(1) 已 知 分 类 的 数据 (数据 来 源 于 王 斌 会 所 著 的 《多 元 统计 分 析 及 R 语言 建 模 ) 一 书 ) 。 
对 象 湿 温 差 气温 差 分 类 (1 雨天 /2 晴天 ) 
1 —-19 3.2 1 
2 —6.9 0.4 1 
3 5.2 2.0 1 
4 5.0 2.5 1 
5 a8 0.0 š 
6 6.8 12.7 1 
7 0.9 一 5.4 1 
8 —12.5 l5 1 
9 1.5 E 1 
10 3.8 6.8 1 
m 0.2 6.2 2 
12 —0.1 7.5 2 
13 0.4 14.6 2 
14 2.7 8.3 2 
15 2.1 0.8 2 
16 一 4.6 4.3 2 
17 -L7 10.9 2 
18 一 2.6 13.1 2 
19 2.6 12.8 2 
20 —2.8 10.0 2 


(2) 线性 判别 系数 : 0. 4183207 ,一 0. 9082994, 
(3) 线性 判别 分 析 的 判别 效果 : 判别 的 正确 率 为 90% 。 
(4) 需要 判别 分 类 的 数据 。 
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WR mx 气温 差 
1 —1.8 3.3 
2 0.3 6.3 
3 —0.2 7.6 


(5) 线性 判别 分 析 结 果 。 


WR 分 类 
1 1 
2 2 
3 2 
12.4 FEA HE 


聚 类 指 的 是 将 数据 集中 的 数据 点 分 别 划分 到 不 同 的 类 中 ,使 得 类 内 数据 之 间 的 相似 度 
尽 可 能 的 大 ,不 同类 之 间 的 相似 性 尽 可 能 达到 最 小 。K- 均 值 (K-means) 聚 类 算法 是 一 种 基 
于 划分 的 聚 类 算法 ,该 算法 中 的 相似 度 是 由 一 个 类 中 的 所 有 数据 对 象 的 平均 值 来 计算 得 到 
的 。 该 算法 是 J. B. MacQueen 在 1967 年 提出 的 ,是 一 种 解决 聚 类 分 析 问 题 的 经 典 算法 ,应 
用 广泛 ,主要 用 于 数据 挖掘 、 机 器 学 习 及 模式 识别 等 领域 。 


12.4.1 K-means 聚 类 分 析 原 理 


K- 均 值 聚 类 算法 的 基本 思想 如 下 : 通过 反复 迭代 ,从 而 对 数据 集 进行 聚 类 ,每 次 迭代 完 
毕 判断 算法 结束 的 条 件 , 如 果 算 法 满足 结束 条 件 则 和 迭代 过 程 结 束 ,产生 聚 类 结果 。 

该 算法 通常 采用 聚 类 误差 平方 和 函数 作为 聚 类 准则 函数 。 假 设 样本 集合 A= {pi， 
bass pud , 它 被 聚 类 成 个 类 Ci Co un 4C PEPER C, 中 分 别 包含 {uw «mi n PCR 
对 象 , 则 误差 平方 和 准则 函数 定义 为 : 


Jb c, 表示 第 j 类 C 的 样本 均值 , 6 = bDi = aem 


该 函数 刻画 了 类 内 数据 之 间 的 聚合 程度 ,该 值 越 小 则 说 明 聚 类 结果 中 各 个 类 内 的 聚合 
程度 越 高 。 
另 一 种 是 类 间距 离 和 准则 + 
J = » Gc; — c) (c; — e) 
其 中 ,c; 表示 聚 类 结果 中 类 C, MPD ij 1.2. c 表示 数据 集合 A 中 所 有 数据 
对 象 的 中 心 。 
该 函数 刻画 了 各 个 类 之 间 的 分 离 程度 ,该 值 越 大 则 说 明 各 个 类 之 间 的 分 离 性 越 好 。 
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根据 误差 平方 和 准则 及 类 间距 离 和 准则 来 判断 一 个 聚 类 结果 聚 类 的 效果 ,如 果 类 内 的 
聚合 程度 高 ,不 同类 之 间 的 分 离 程度 越 高 , 则 此 聚 类 结果 越 好 。 


12.4.2 K-means 聚 类 分 析 案 例 


K-means 聚 类 算法 的 一 般 步骤 如 下 : 

CD 指定 初始 聚 类 中 心 。 在 数据 集中 随机 选 定 & 个 数据 对 象 作 为 聚 类 中 心 , 记 为 (ci， 
€25***3042 o 

(2) 聚 类 。 对 于 数据 集中 的 每 个 样本 zi ,计算 其 与 上 个 聚 类 中 心 的 距离 ,根据 距离 最 近 
原则 将 其 归 到 距离 它 最 近 的 中 心 代表 的 类 中 。 


(3) 更 新 聚 类 中 心 。 将 步骤 (2) 中 得 到 的 人 个 类 重新 计算 其 中 心 : cj = LY =1, 
2, nj BIS j IEC; 的 样本 均值 。 


(4) 误差 平方 和 计算 : J. = »» la; — e; |]? , 即 误差 平方 和 准则 函数 。 


(5) 判断 。 如 果 各 个 类 的 中 心 不 再 变化 ,或 者 满足 规定 的 收敛 准则 ,那么 迭代 结束 ,得 
到 聚 类 结果 ; 否则 转 到 步骤 (2) ,继续 迭代 ,直到 满足 迭代 终止 条 件 。 

K-means 聚 类 算法 具有 算法 思想 简单 ,易于 实现 等 优点 ,广泛 应 用 于 理论 的 研究 及 实际 
的 应 用 中 。 

K-means 聚 类 算法 的 Rhadoop 实现 : 

CD 加 载 包 , 初 始 化 dfs。 


library("rhdfs") 
hdfs. init() 
library("rmr2") 
library(xlsx) 


(2) Ben FRE IR TR k R VK num, BEBE PEAR BOK A CSMAR 数据 库 中 
2012 年 全 国 31 个 省 .市 自治 区 的 居民 收入 与 消费 水 平 数据 , 同 6. 3. 3 节 数 据 表 。 本 例 将 
31 个 省 \ 市 .自治 区 根据 其 居民 收入 和 消费 水 平 归 为 4 类 ,进行 6 次 迭代 。 


k= 4 # 聚 类 个 数 

num= 6 + RAK RL 

juldata <- read. xlsx("/home/limin/data. xlsx",1,header = T) 
X«- juldata[,c(4:10)] 

A<- as.matrix(X) 


(3) 定义 mapperl 函数 ,随机 选 定 个 对 象 作为 聚 类 中 心 ,进行 第 一 次 聚 类 。 
该 函数 实现 了 以 任意 & 个 对 象 为 聚 类 中 心 的 聚 类 分 析 。 


第 12 章 ”RHadoop 环 境 下 案例 分 析 


mapper1 = function(. ,A){ 
c«- sample(1:nrow(A),k, replace = F) 


Al <- Alc,] # 选 取 任意 k T 


keyva1(1, nearest) # 第 一 次 聚 类 结果 
) 


(4) 定义 mapper2 函数 ,根据 新 的 聚 类 中 心 进行 聚 类 。 该 函数 实现 了 K-means R% 
分 析 。 
(5) 调用 mapperl 函数 ,产生 第 一 次 聚 类 结果 。 


mpl < 一 mapreduce( input = to. dfs(A),map = mapper1, combine = TRUE) 
c2«- values(from. dfs(mp1) ) 
c2 #3— DK RRR 


(6) 调用 mapper2 函数 ,进行 num 次 迭代 ,得 到 最 终 聚 类 结果 。 


for(a in 2:num){ 
mp2 <- mapreduce( input = to.dfs(A), map = mapper2, combine = TRUE) 
c2«- values(from. dfs(mp2) ) 
i 
kc <- cbind(as.matrix(1:nrow(A),ncol = 1),as. matrix(values(from.dfs(mp2)))) 


kc # 最 终 聚 类 结果 


聚 类 分 析 结 果 如 表 12. 1 所 示 。 
表 12.1 K-means 聚 类 分 析 结 果 


地 区 归 类 地 区 归 类 地 区 归 类 
北京 4 浙江 4 海南 1 
天 津 3 安徽 2 重庆 3 
河北 2 福建 3 四 川 2 
山西 2 江西 1 贵州 1 
内 蒙古 3 山东 4 云南 1 
辽宁 2 河南 2 西藏 1 
吉 1 湖北 2 陕西 2 
黑龙 江 1 湖南 2 甘肃 1 
上 海 4 广东 4 青海 
江苏 4 广西 1 TH 1 
新 疆 1 


由 表 12. 1 TUAR SR RE TT sd 
Pe MET SL TSE; 第 二 类 : 河北 、 山 西 . 辽 宁 、 安 徽 、 河 南 、 湖 北 、 湖 南 、 四 川 . 陕 西 ; 第 三 类 : 
天 津 、 内 蒙古 ,福建 .重庆 ; 第 四 类 : 北京 上海、 江苏、 浙江 、 山 东 、 广 东 。 归 类 结果 与 地 区 实 
际 收入 和 消费 水 平一 致 ,验证 了 结果 的 正确 性 。 
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12.5 主 成 分 分 析 


自 Hotlling 于 1933 年 首先 提出 主 成 分 分 析 以 来 ,国内 外 都 非常 重视 对 该 方法 的 研究 
与 应 用 ,并 取得 了 相当 大 的 进展 ,其 应 用 成 果 已 渗透 到 许多 领域 。 


12.5.1 主 成 分 分 析 原 理 


主 成 分 分 析 法 是 利用 降 维 的 思想 ,在 损失 很 少 信 息 的 前 提 下 把 多 个 指标 根据 一 定 原则 
和 实际 需要 转化 为 几 个 综合 指标 的 多 元 统计 方法 。 该 方法 的 基本 思想 是 在 保留 尽 可 能 多 的 
原始 信息 的 前 提 下 达到 降 维 的 目的 ,从 而 简化 问题 的 复杂 性 , 抓 住 问题 的 主要 矛盾 。 

主 成 分 分 析 的 推导 过 程 : 

B X=(X,,:: X, 为 一 个 p 维 随机 向 量 ,其 均值 向 量 为 p = EX), BT HE X— 
D(X)。 线 性 变换 Y= 二 TX, 其 中 Y= (Yi Y. Yo ,T= 二 (Ti ,Ts,…,T,)。 确 定 一 组 新 的 
AY, Yon ,Ym(m 志 pp) 充分 反应 原始 变量 Xi s X... X, 的 信息 , 且 互 不 相关 。 

第 一 主 成 分 : Y= 二 TX, 满 足 T T, = 1 (563 DO ST 达到 最 大 。 

第 二 主 成 分 : Yo=T 2X. T, T; = 1, 18 ee ST, 达到 最 大 。 第 一 主 成 分 
是 投影 值 的 协 方差 达到 最 大 的 方向 ; 第 二 主 成 分 与 第 一 主 成 分 方向 正 交 ,使 投影 在 该 方向 
上 的 值 的 协 方差 达到 最 大 。 

Ek 主 成 分 : Ya =T X ,满足 T',T, 1. H Cov(Yi,Yi)=Cov(TX,TX)=0(i<k), 
使 得 D(Y,)=T',ZT, 达到 最 大 。 

其 中 ,第 一 主 成 分 Y= 二 T,X 综合 原始 变量 XX I. Xo ues X, WIRE II EUR M Ys Y, 的 
综合 能 力 依 次 递减 。 

综 上 所 述 ,车 闵 的 协 方差 5 的 特征 值 为 A 三 4, 宇 … 三 4, 宇 0, 相 应 的 单位 化 特征 向 量 为 
Ti,T,,…,T,。 则 由 此 所 确定 的 主 成 分 为 Yi 二 TiX,Y, — T2X Y, T,X ,其 方差 分 别 
为 的 特征 根 。 为 了 保持 信息 不 丢失 ,Y 的 各 分 量 方差 和 与 XX 的 各 分 量 方 差 和 相等 。 

H k PERD Y, 的 贡献 率 : 


A 
P=- 
MA 


即 第 个 方差 在 全 部 p 个 方 关中 的 比重 称 为 个 主 成 分 的 贡献 率 。 贡 献 率 越 大 ,新 
变量 Y, 综合 原始 变量 Xi ,X,,… X, 的 能 力 越 强 。 
BUOBUm C p) 3E AT WERI Ys Yo ,…,Yw 的 累积 贡献 率 : 


WI Y; Y, =. Yu ERA XI. X... X, 的 能 力 。 进行 主 成 分 分 析 减 少 指标 数 ,确定 主 
成 分 是 一 个 很 实际 的 问题 。 选 取 主 成 分 通常 以 累积 贡献 率 达 到 85% 以 上 的 标准 确定 m 的 
取 值 , 即 
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这 样 既 尽量 减少 了 信息 的 损失 ,也 达到 了 降 维 的 目的 。 大 多 数 情况 下 , "4 m= 3 时 就 可 
使 选取 的 主 成 分 累积 贡献 率 达到 85% 以 上 。 

通常 选择 评价 指标 体系 后 ,运用 对 各 指标 加 权 的 方法 进行 综合 ,得 到 综合 评价 得 分 ,从 
而 确定 综合 排名 。 利 用 主 成 分 进行 综合 评价 时 ,要 充分 利用 原始 变量 的 信息 ,将 原始 指标 进 
行 综合 。 由 于 方差 贡献 率 反 映 了 各 主 成 分 的 信息 量 , 因 此 对 主 成 分 进行 加 权 综 合 , 通 常 根据 
方差 贡献 率 确定 主 成 分 的 权重 系数 。 

BEY iY, Y, 是 所 求 的 m 个 主 成 分 ,其 特征 值 为 ai Ae sete Am WT 

Ài 


Sa 
ii 


wi = 


i= 1,2,--,m 


则 综合 评价 函数 : 
Z = xo, Y, + xo;Y; 二 wnY,. 


12.5.2 主 成 分 分 析 案 例 


主 成 分 分 析 法 是 一 种 客观 赋 权 的 方法 ,该 方法 充分 利用 原始 变量 的 全 部 信息 ,根据 方差 
贡献 率 确定 主 成 分 的 权重 系数 ,全 面 客观 地 反映 指标 的 重要 程度 ,使 综合 评价 结果 更 合理 。 

主 成 分 分 析 综 合 评价 的 一 般 步骤 如 下 : 

(1) 建立 指标 体系 。 

(2) 进行 指标 间 相 关 性 判定 及 数据 处 理 ,确立 相关 系数 矩阵 或 协 方差 矩阵 。 

(3) 计算 相关 系数 矩阵 或 协 方差 矩阵 的 特征 值 与 特征 向 量 。 

(4) 选取 主 成 分 ,确定 指标 权重 。 

(5) 确定 主 成 分 表达 式 。 

(6) 计算 综合 评价 值 ,做 出 综合 评价 。 

主 成 分 分 析 算 法 的 Rhadoop 实现 : 

(1) 加 载 包 , 初 始 化 dfs。 


library("rhdfs") 
hdfs. init() 
library("rmr2") 
library("xlsx") 


(2) 数据 读 取 ,PCAFAdata. xlsx 存储 于 Hadoop 中 /home/limin/ 文 件 夹 下 。 该 样本 数 
据 来 自 CSMAR 数据 库 中 2012 年 全 国 31 个 省 .市 .自治 区 的 居民 收入 与 消费 水 平 数据 , 同 
6.3.4 节 数 据 表 。 


peadata <- read. xlsx("/home/1imin/PCAFAdata. xlsx",1,header = T) 
X«- pcadata[,c(4:10)] 
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(3) 定义 mapperl 函数 ,对 原始 数据 进行 标准 化 处 理 。 
该 函数 实现 了 数据 的 标准 化 处 理 , 消 除了 量 岗 的 影响 。 


mapper1 = function(.,X)( 
mju«- c() 
sigma <— c() 
for(j in 1:ncol(X))( 
mju[j] <- mean(X[,3]) zÁ 
sigma[j] = sqrt(sd(X[,j]))  # 标 准 差 
} 


keyva1(1, Y) 井 标准 化 矩阵 


和 矩阵 、 主 成 分 得 分 和 矩阵、 综合 得 分 及 排名 的 算法 实现 。 


(A) 定义 mapper2 函数 ,进行 主 成 分 分 析 综合 评价 。 该 函数 包括 成 分 贡献 率 .成 分 载荷 


mapper2 = function(.,Y)( 
R«- cov(Y) 
ev <- eigen(R) 
El <- ev$val[order( - ev $ val) ] + yE (ËB H KB) HEB 
H«- order( - ev $ val) 
s«- 0 
nl = length(E1) 
for(i in 1:n1){ 
s<- s+El[i] 
} 
g<- El/s # 成 分 贡献 率 


keyval(1,rbind(p1,0r)) # 综 合 排名 
) 


(5) 调用 mapperl 函数 ,得 到 原始 数据 标准 化 后 的 矩阵 。 


mpl <- mapreduce( input = to. dfs(X),map = mapperl, combine = TRUE) 
Y<- values(from.dfs(mpl)) 
Y # 标准化 后 的 矩阵 


(6) 调用 mapper2 函数 ,得 到 主 成 分 个 数 及 主 成 分 分 析 综 合 评价 的 排名 。 


mp2 <- mapreduce( input = to.dfs(Y),map = mapper2, combine = TRUE) 

p<- values( from. dfs(mp2))[1,1] 

p # ER 3 

Order <- cbind(as. matrix(1:nrow(X),ncol = 1),as. matrix(values(from. dfs(mp2))[2, ])) 
Order £f HZ 
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(1) 主 成 分 个 数 : 2。 
(2) 主 成 分 分 析 综 合 排名 如 表 12. 2 所 示 。 


R122 主 成 分 分 析 综 合 排名 


地 区 £ 地 区 r 地 区 r 
北京 3 浙江 4 海南 27 
天 津 安徽 17 重庆 16 
河北 11 福建 9 四 川 10 
山西 19 江西 22 贵州 28 
内 蒙古 15 山东 6 云南 24 
辽宁 8 河南 12 西藏 31 
w 21 湖北 13 陕西 18 
黑龙 江 23 湖南 14 甘肃 29 
上 海 1 广东 2 青海 30 
江苏 5 广西 20 宁夏 26 
新 疆 25 


可 以 看 到 结果 与 6. 3.4 节 中 用 R 中 内 置 函 数 进行 主 成 分 分 析 的 结果 是 一 致 的 ,也 进 一 
步 验 证 了 结果 的 正确 性 。 


12.6 因子 分 析 


因子 分 析 (Factor Analysis) 是 一 种 针对 多 个 变量 的 统计 分 析 方 法 。 该 方法 是 Charler 
Spearman 于 1904 年 提出 来 的 ,如 今 广泛 应 用 于 统计 、 经 济 、 物 流 及 生物 医学 等 领域 。 因 子 
分 析 探 讨 的 是 多 个 变量 之 间 的 相互 依赖 关系 ,并 把 多 个 变量 转换 为 少数 几 个 公共 因子 ,是 主 
成 分 分 析 方法 的 推广 。 


12.6.1 因子 分 析 原 理 


因子 分 析 模 型 ( 正 交 因子 模型 ) : 
Ë X—OG Xe X 是 可 观测 的 随机 向 量 ,E(X) — 4. DOO —E, Hit F=(F., 
Fy ES) Ov p) FEAR ni [38 dU (5 Bl BL IS] it E CE) — 0. DOE) — L, Bl 4) 88 75 EW 1. R H.A 
相关 。 又 设 e —(6 ,es 6) 与 下 互 不 相关 , 且 
E(e) —0. Dle) = diag (å, 6) = D 
假定 随机 向 量 X 满足 以 下 模型 : 
Xı — p = an Fi c a F; + + inF mn +e, 
X2— p = an Fı + az Fs; 77 + ax,F,, + 6 


X, — p, = Ap Fy E ag Fo Hee + dpm Fm +e, 
此 模型 为 正 交 因子 模型 ,用 和 矩阵 表示 为 
X=y+AF+e 
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HB F=(F,.F2 ,…,F) Oi p)? X HARAT; € 二 (ei,es,… ,ep) 为 和 X 的 特殊 因 


Fs ASAPH X Dg rdi X, 都 有 作用 ,而 s 只 对 义 ; 起 作用 ,而 且 各 特殊 因 


及 特殊 因子 与 所 有 公共 因子 之 间 是 互 不 相关 的 。 


子 之 间 


上 述 模 型 中 的 矩阵 A 二 (as )w.w 是 待 估 的 系数 矩阵 ,为 因子 载荷 矩阵 。az G51, p3 


Gali mAB i TAREE SS j 个 因子 上 的 载荷 , 即 因子 载荷 。 


在 因子 分 析 中 ,因子 的 个 数 m 的 选取 通常 采用 确定 主 成 分 个 数 的 原则 , 即 满足 


Da 


sal _ > 85% 


ff m fü. 


如 果 选 取 的 m 个 因子 不 能 很 好 地 反映 其 实际 意义 ,那么 需要 对 因子 进行 旋转 ,使 其 具 
有 比较 明确 的 实际 意义 。 根 据 原 指标 的 线性 组 合 对 因子 得 分 进行 求解 ,常用 的 方法 有 回归 
估计 法 、Bartlett 估计 法 等 。 一 般 由 公共 因子 的 方差 贡献 率 作为 因子 的 权重 系数 ,以 得 到 综 


合 得 分 。 计 算 方 法 如 下 : 


设 Fis F,, = Fn 是 所 求 的 m 个 因子 ,其 特征 值 为 ai AQ en À, LUE 


w; = A ， i=1,2, „m 


2) 


则 综合 因子 得 分 函数 为 
Z = xo, F, + xo; F, + 二 wnF, 


12.6.2 因子 分 析 案 例 
运用 因子 分 析 进 行 综合 评价 的 一 般 步 骤 如 下 : 


CD 对 原始 数据 进行 标准 化 处 理 ,消除 变 量 之 间 数 量 级 及 量 纲 的 影响 。 


(2) 对 标准 化 数据 进行 处 理 , 确 立 其 相关 矩阵 或 协 方差 矩阵 。 

(3) 计算 相关 矩阵 或 协 方差 矩阵 的 特征 值 与 特征 向 量 。 

(4) 根据 一 定 规则 选取 因子 。 

(5) 若 选取 的 因子 表示 实际 意义 的 效果 不 明显 , 则 进行 因子 旋转 。 
(6) 根据 原始 指标 的 线性 组 合 进行 因子 得 分 的 求解 。 

(7) 确定 各 因子 的 权重 。 

(8) 计算 综合 因子 评价 值 ,做 出 综合 评价 。 

因子 分 析 算 法 的 Rhadoop 实现 : 

(1) 加 载 包 , 初 始 化 dfs。 


library("rhdfs") 
hdfs. init() 
library("rmr2") 
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(2) 数据 读 取 , 样 本 数据 来 自 CSMAR 数据 库 , 同 13.6.1 节 数 据 。 


fadata < 一 read.xlsx("/home/limin/PCAFAdata. xlsx",1,header = T) 
Y«- fadata[,c(4:10)] 


(3) 定义 mapperl 函数 ,对 原始 数据 进行 均值 化 处 理 。 
该 函数 实现 了 对 原始 数据 的 均值 化 处 理 , 消 除了 量 纲 的 影响 。 
(A) 定义 mapper2 函数 ,进行 因子 分 析 综 合 评价 。 该 函数 包括 了 样本 协 方差 阵 、 相 关 


VE 方差 贡献 率 、 因 子 得 分 及 综合 得 分 排名 的 算法 实现 。 


mapper2 = function(.,X)( 
mju«- c() 
for(j in 1:ncol(X))( 
nju[j] <- mean(X[,j]) 
) 
Y<- t(t(X) - mju) 
s<- 0 
for(i in 1:nrow(X)){ 
s<- s+Y[i,]% * %t(Y[i,]) 
) 
cR<- s/(nrow(X) - 1) # 样 本 的 协 方差 阵 


keyval(1, SOr) # 综 合 得 分 排名 
} 


(5) 调用 mapper] 函数 ,得 到 原始 数据 标准 化 后 的 矩阵 。 


mpl <- mapreduce( input = to. dfs(Y), map = mapper1, combine = TRUE) 
X<- values(from. dfs(mp1) ) 
x # 标 准 化 后 的 矩阵 


(6) 调用 mapper2 函数 ,得 到 因子 分 析 综 合 评价 的 排名 。 


mp2 < — mapreduce( input = to. dfs(X) , map = mapper2, combine = TRUE) 
rank < 一 values(from. dfs(mp2) ) 
rank ££ HER 


因子 分 析 算法 综合 评价 分 析 结 果 如 表 12.3 所 示 。 
表 12.3 因子 分 析 综 合 排名 


地 区 r 地 区 t 地 区 r 
北京 2 浙江 3 海南 25 
天 津 5 安徽 18 重庆 11 
河北 15 福建 7 四 川 16 
山西 24 江西 22 贵州 29 
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续 表 

地 区 £ 地 区 r 地 区 r 
内 蒙古 10 山东 8 云南 26 
LT 9 河南 17 西藏 31 
吉 14 湖北 12 陕西 19 
黑龙 江 21 湖南 13 甘肃 30 
上 海 1 广东 4 青海 28 
江苏 6 广西 20 宁夏 23 
新 疆 27 


可 以 看 到 结果 与 6. 3.5 节 中 用 R 中 内 置 函 数 进行 因子 分 析 的 结果 是 一 致 的 ,也 进一步 
验证 了 结果 的 正确 性 。 


12.7 商品 推荐 算法 


随 着 电子 商务 规模 的 不 断 扩大 ,商品 个 数 和 种 类 快速 增长 ,顾客 需要 花费 大 量 的 时 间 才 
能 找到 自己 想 买 的 商品 。 这 种 浏览 大 量 无 关 的 信息 和 产品 的 过 程 无 疑 会 使 浴 没 在 信息 过 载 
问题 中 的 消费 者 不 断 流失 。 为 了 解决 这 些 问题 ,个 性 化 推荐 系统 应 运 而 生 。 个 性 化 推荐 是 
根据 用 户 的 兴趣 特点 和 购买 行为 向 用 户 推 荐 用 户 感 兴趣 的 信息 和 商品 ,是 建立 在 海量 数据 
挖掘 基础 上 的 一 种 高 级 商务 智能 平台 ,以 帮助 电子 商务 网 站 为 其 顾客 购物 提供 完全 个 性 化 
的 决策 支持 和 信息 服务 。 

在 电子 商务 时 代 ,商家 通过 购物 网 站 提供 了 大 量 的 商品 ,客户 无 法 一 眼 通 过 屏幕 就 了 解 
所 有 的 商品 ,也 无 法 直接 检查 商品 的 质量 。 所 以 ,客户 需要 一 种 电子 购物 助手 ,能 根据 客户 
自己 的 兴趣 爱好 推荐 客户 可 能 感 兴趣 或 者 满意 的 商品 。 个 性 化 推荐 系统 具有 良好 的 发 展 和 
应 用 前 景 。 目 前 ,几乎 所 有 的 大 型 电子 商务 系统 ,如 Amazon, eBay 等 不 同 程度 地 使 用 了 各 
种 形式 的 推荐 系统 。 国 内 方面 ,知名 购物 网 站 麦 包 包 .凡客诚 品 . 库 巴 网 ` 红 孩子 等 都 率先 选 
择 了 本 土 最 先进 的 百分点 推荐 引擎 系统 构建 个 性 化 推荐 服务 系统 。 在 日 趋 激烈 的 竞争 环境 
下 ,个 性 化 推荐 系统 能 有 效 地 保留 客户 ,提高 电子 商务 系统 的 服务 能 力 。 因 此 ,成功 的 推荐 
系统 会 带 来 巨大 的 效益 。 


12.7.1 商品 推荐 算法 原理 


推荐 系统 的 算法 有 很 多 ,如 基于 内 容 推荐 ,协同 过 滤 推 荐 .基于 关联 规则 推荐 .基于 知识 
推荐 .组 合 推荐 等 。 协 同 过 滤 推 荐 技术 是 推荐 系统 中 应 用 最 早 和 最 为 成 功 的 技术 。 本 文 主 
要 介绍 基于 协同 过 滤 的 推荐 算法 , 它 一 般 采 用 最 近邻 技术 ,利用 用 户 的 历史 喜好 信息 计算 用 
户 之 间 的 距离 ,进而 利用 目标 用 户 的 最 近邻 居 用 户 对 商品 评价 的 加 权 评 价值 来 预测 目标 用 
户 对 特定 商品 的 喜好 程度 ,然后 系统 根据 这 一 喜好 程度 来 对 目标 用 户 进行 推荐 。 协 同 过 滤 
算法 的 最 大 优点 是 对 推荐 对 象 没有 特殊 的 要 求 ,能 处 理 非 结构 化 的 复杂 对 象 ,如 音乐 、 电 
影 等 。 

协同 过 滤 首 先 基于 这 样 一 个 假设 : 跟 你 喜好 相似 的 人 喜欢 的 东西 你 也 很 有 可 能 喜欢 。 
因此 ,为 一 个 用 户 找到 他 真正 感 兴趣 的 内 容 的 好 方法 是 首先 找到 与 此 用 户 有 相似 兴趣 的 其 
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他 用 户 , 然 后 将 他 们 感 兴趣 的 内 容 推荐 给 此 用 户 。 其 基本 思想 非常 易于 理解 ,在 日 常生 活 
中 ,我 们 往往 会 利用 好 朋友 的 推荐 来 进行 一 些 选择 。 协 同 过 滤 正 是 把 这 一 思想 运用 到 电子 
商务 推荐 系统 中 来 ,基于 其 他 用 户 对 某 一 内 容 的 评价 来 向 目标 用 户 进行 推荐 。 


12.7.2 商品 推荐 案例 


基于 用 户 的 协同 过 滤 算 法 主要 分 为 三 个 步骤 : 

CD 收集 用 户 偏好 。 

(2) 找到 相似 的 用 户 或 物品 。 

(3) 计算 推荐 。 

下 面 将 在 RHadoop 环境 下 完成 对 商品 推荐 的 编程 。 

本 例 所 用 的 数据 来 自 于 Sean Owen 等 所 著 的 (Mahout in Action) 一 书 ,数据 集 是 来 自 5 
个 顾客 的 调查 数据 (具体 数据 信息 如 下 ), 其 中 变量 user 表示 顾客 信息 ,item 表示 购买 商品 
的 信息 ,pref 表示 购买 商品 的 偏好 信息 。 本 例 研 究 的 重点 是 根据 消费 者 购买 商品 的 偏好 信 
息 , 使 用 协同 过 滤 算 法 产生 推荐 商品 ,下 面 将 在 RHadoop 的 环境 下 编程 实现 。 

顾客 购买 商品 及 对 商品 的 评价 信息 如 下 : 


user item pref 

z 1 101 5.0 
2 1 102 3.0 
3 1 103 2.5 
4 2 101 2.0 
5 2 102 2.5 
6 2 103 5.0 
7 2 104 2.0 
8 3 101 2.0 
9 3 104 4.0 
10 3 105 4.5 
11 3 107 5.0 
12 4 101 5.0 
13 4 103 3.0 
14 4 104 4.5 
15 4 106 4.0 
16 5 101 4.0 
17 5 102 3.0 
18 5 103 2.0 
19 5 104 4.0 
20 5 105 3.5 
21 5 106 4.0 


为 了 产生 推荐 ,应 该 按照 如 下 步骤 进行 : 
(1) 计算 相似 矩阵 。 

(2) 建立 用 户 得 分 矩阵 。 

(3) 产生 推荐 商品 。 

具体 编程 实现 如 下 : 
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COD 安装 并 加 载 相应 的 包 , 本 例 用 到 的 安装 包 是 Matrix, 


library(rmr2) 
library(Matrix) 


(2) 以 数据 框 的 形式 载 人 数据 ,并 把 数据 导入 到 HDFS。 


train< 一 data. frame( 

user <= c(1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5,5,5), 

item«- c(101,102,103,101,102,103,104,101,104,105,107,101, 
103,104,106,101,102,103,104,105,106), 

pref'<= ¢(5;3,2.5,2,2.5,5,2,2,4,4-5,5,5,3;4.5,4,4,3,2)4,3.5)4)) 
train. hdfs<— to.dfs(train) 


(3) 定义 mapper] 函数 ,计算 相似 矩阵 。 该 函数 实现 了 商品 间 相 似 和 矩阵 的 计算 。 


mapperl = function(. , data) { 

users = sort(unique(data $ user)) 

items = sort(unique(data $ item)) 

prefs = sparseMatrix(i = match(data $ user, users), j = match(data $ item, items), x = data 
$ pref) 


keyval(1,co) # 相似 矩阵 
} 


(4) 定义 mapper2 函数 ,获得 商品 推荐 结果 。 该 函数 即 为 商品 推荐 函数 ,涉及 4 个 参 


数 : 相似 矩阵 、 先 前 购买 什么 商品 、 对 该 商品 的 得 分 是 多 少 、 推 荐 商品 的 数目 ,实现 了 商品 推 


mapper2 = function(. , data) { 
co= data[[1]] # 商品 相似 矩阵 
k=data$k # 用 户 购买 过 的 商品 
score = data $ score + 用 户 商品 的 评分 
m= data $ m # 推 荐 商品 的 数目 
keyval(1, recommend) # 推荐 结果 
} 


(5) 调用 mapperl 函数 和 mapper2 函数 ,获取 推荐 商品 的 列表 。 


MP. co < — mapreduce( input = train. hdfs, map = mapper1, combine = TRUE) 
co<- values(from. dfs(MP. co) ) 

data«- to.dfs(list(co,k=c(1,3),score=c(1,5),m=2)) 

MP. recommend < — mapreduce( input = data, map = mapper2, combine = TRUE) 
recommend <— values( from. dfs(MP. recommend) ) 
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(6) 根据 程序 得 出 商品 的 相似 矩阵 及 最 后 商品 推荐 得 到 的 结果 如 下 。 
其 中 ,相似 和 矩阵 为 : 


> round(co, 3) 

1 2 3 4 5 6 7 
0.000 0.028 0.035 0.033 0.016 0.029 0.012 
0.028 0.000 0.057 0.021 0.027 0.030 0.020 
0.035 0.057 0.000 0.026 0.016 0.027 0.014 
0.033 0.021 0.026 0.000 0.039 0.047 0.024 
0.016 0.027 0.016 0.039 0.000 0.027 0.074 
0.029 0.030 0.027 0.047 0.027 0.000 0.017 
0.012 0.020 0.014 0.024 0.074 0.017 0.000 


YOUR WNR 


得 到 的 推荐 结果 为 : 


>recommend = values(from. dfs(MP. recommend) ) 
— recommend 
[[1]] 
[1]"2""7" 
[[2]] 
2 [4 
3.672986 3.129787 


所 以 ,最 终 在 顾客 购买 商品 的 已 有 偏好 商品 1 和 商品 3 的 情况 下 ,对 该 顾客 推荐 商品 2 
和 商品 7。 


12.8 差异 分 析 


随 着 经 济 的 高 速 增长 ,我 国 出 现 了 严重 的 贫 富 差距 问题 。 目 前 ,我 国 已 经 成 为 世界 上 和 贫 
富 差距 最 大 的 国家 。 我 国 的 贫 富 差距 是 指 我 国 社会 中 个 人 财富 不 均衡 的 现象 , 即 人 们 对 物 
质 生活 资料 占有 的 差距 。 贫 富 差距 直观 地 表现 为 人 们 收入 的 差距 ,工资 水 平 在 一 定 程 度 上 
可 以 反映 收入 问题 ,判定 一 个 地 区 工资 水 平 的 高 低 ,不 仅 能 反映 出 当地 经 济 的 发 展 水 平和 人 
民 的 生活 水 平 , 还 能 为 国家 制定 宏观 经 济 政策 提供 一 定 的 参考 。 


12.8.1 多 维 标 度 法 的 原理 


多 维 标 度 法 (MDS) 是 在 低 维 空间 展示 “距离 ”数据 结构 的 多 元 数据 技术 。 它 可 以 把 多 
维 的 数据 降 维 到 二 维 空间 ,从 而 实现 数据 的 可 视 化 。 

古典 多 维 标 度 法 求解 的 一 般 步 又 如 下 : 

CD 计算 样品 间 的 距离 矩阵 。 

(2) 根据 距离 矩阵 构造 内 积 和 矩阵 。 

(3) 计算 内 积 和 矩阵 的 特征 值 ,并 选取 7 个 最 大 的 特征 值 4 三 Xs 宇 … 宇 4, 宇 0 及 其 对 应 的 
单位 特征 向 量 。 其 中 ,r 的 确定 方法 有 两 种 : 一 是 事先 确定 ~ 一 1,2 或 3; 二 是 通过 计算 前 > 
个 大 于 零 的 特征 值 占 全 体 特征 值 的 比例 < 确定 。 
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其 中 ,wo 为 预先 给 定 的 变 差 贡献 比例 。 
12.8.2 差异 分 析 案 例 


在 RHadoop 环境 下 实现 差异 分 析 , 样 本 数据 来 自 国泰 安 CSMAR 数据 库 , 选 取 人 口 就 
业 与 工资 数据 库 中 2013 年 全 国 31 个 省 .市 自治 区 的 职工 平均 工资 及 指数 ,包括 职工 平均 
货币 工资 合计 、 国 有 单位 职工 平均 货币 工资 ,城镇 集体 单位 职工 平均 货币 工资 .其 他 单位 职 
工 平均 货币 工资 数据 。 

在 RHadoop 环境 下 的 计算 过 程 及 结果 分 析 如 下 : 

(1) 加 载 包 。 


library("rhdfs") 
hdfs. init() 
library("rmr2") 
library("xlsx") 
library(" MASS") 


(2) 载 人 数据 文件 。 


wage <— read. x1sx("/home/limin/chayi.xlsx",1,header = T) 
wage <— wage[,c(4:7)] 
data <- as.matrix(wage) 


(3) 定义 map PRC RH e Tbk ili ER. ARRE Y & 4 BR ili lj BE 8 A E f 
计算 。 


map = function(.,data)( 
D=dist(data, method = "euclidean",diag- T, upper = FALSE, p = 2) 


keyval(1,X) + ERER 
) 


(4) 调用 map 函数 ,得 到 城市 间距 离 矩阵 。 


Mds <— mapreduce( input = to.dfs(data), map = map, combine = TRUE) 
M<- from. dfs(Mds) $ val 


(5) 采用 多 维 标 度 法 把 多 维 指标 降 维 到 二 维 空间 ,并 作出 图 形 。 


fit«- isoMDS(M,k=2) 
x«- fit $ points[,1] 
y<- fit $ points[,2] 
par(mar = c(4,4,1,2),cex=0.75) 
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plot(x, y) ;abline(v = 0,h=0,1ty= 3) 

area = c(' 北 京 ', ' 天 津 ', ' 河 北 ',' 山 西 ', ' 内 蒙古 ', ' 辽 宁 ', ' 吉 林 ', RRI, ' 上 海 ', ' 江 苏 ', ' 浙 江 ', ' 安 徽 
"LEE, ERR S, ' 山 东 ', ' 河 南 ', MR C ' 湖 南 ', 广东 ', 广西 海南 "重庆 ', "四川 ', 贵州 ', ' 云 南 ', 西 
藏 ', ' 陕 西 ', ' 甘 肃 ', ' 青 海 ', ' 宁 夏 ', BOB) 

text(x, y, labels = area, adj = - 0.01) 


最 后 ,输入 图 形 如 图 12. 1 所 示 。 


1s000[ ip 


贵州 ， ing ah 。 OMIT. 
j oir; 


quii; zs 
-5o99l. Tesi m 广东 oXit 


1 
' 
' 
' 
' 
-15000} , omik ， . 

-20000 0 20000 40000 60000 

x 


图 12.1 差异 分 析 图 
从 图 12. 1 可 以 看 出 ,北京 、 上 海 的 工资 水 平 较 相 近 , 天 津 、 浙 江 、 江 苏 、 广 东 的 工资 水 平 
较 相近 ,新 疆 、 内 蒙古 、 贵 州 、 宁 夏 的 工资 水 平 较 相 近 。 因 此 ,把 每 个 地 区 的 多 维 指标 降 维 到 
二 维 空间 更 有 利于 比较 它们 的 相对 位 置 关 系 ,这 是 数据 可 视 化 的 一 种 方式 。 
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国泰 安 CSMAR 数 据 PA om 


本 书 绝 大 部 分 样本 数据 来 自 国泰 安 CSMAR 数据 库 , 下 面 给 出 了 本 书 6. 3 节 多 元 统计 
分 析 中 聚 类 分 析 样 本 数据 的 获取 下 载 步骤 。 

Hi http://www. gtarsc. com/ 进 入 国泰 安 数据 服务 中 心 登录 页 面 , 输 入 账号 和 密码 ， 
进入 数据 中 心 首 页 ,如 图 A. 1 所 示 。 


Flames | 国泰 安 数据 服务 中 心 Ç 400-609-6665/8 


[dl 


图 A.1 国泰 安 数 据 服务 中 心 登 录 页 面 
CSMAR 数据 库 设置 了 两 种 数据 查询 方式 : 单 表 查询 和 自 定义 查询 。 用 户 可 以 根据 自 


身 需 求 选择 不 同 的 查询 方式 ,如 图 A. 2 所 示 。 

选择 “ 自 定义 查询 ”, 单 击 “ 区 域 经 济 ” 一 “居民 收入 与 消费 ”, 依 次 选择 农村 居民 消费 水 
E ,城镇 居民 消费 水 平城 镇 居民 家 庭 平均 每 人 全 年 总 收入 、 农 村 居民 家 庭 平 均 每 人 全 年 纯 
收入 、 城 镇 居民 消费 支出 、 农 村 居民 消费 支出 ,城乡 储蓄 ,时 间 选 择 为 2012 年 ,如 图 A. 3 
所 示 。 

单 击 下 载 数据 ,得 到 2012 年 全 国 31 个 省 .市 .自治 区 的 居民 收入 与 消费 状况 表 。 至 此 ， 
完成 了 CSMAR 数据 的 下 载 过 程 。 
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H 


国 saan 


该 异 块 提供 了 国泰 安 公司 CSMAR 系 列 精准 赦 据 的 可 询 调用 服务 , 您 可 以 对 数 
据 进行 查询 、 预 览 、 下 载 、 统 计 绘 图 等 操作 ; 在 此 模块 中 ， 数据 库 结合 实证 研究 专 
题 , 按 研 究 方向 梅 数据 分 类 ,满足 不 同 研究 者 的 需求 。 主 要 包括 以 下 系列 : 


自 定义 查询 树 


° aH 指标 列表 
Slam 区 域 经 济 指标 (省 份 ) - 
o Baneram 
9-88 人 口 就 业 与 工资 | 
9-8) resi 
2 BRA SINI 
B mes ARTE 
Pasis 
ELI l 


Beene #6 


v W tar O 时间 选择 


指标 名 称 
农村 居民 消费 水 平 
城镇 居民 消费 水 平 
城镇 居民 宗 庭 平 - 
农村 居民 家 庭 平 - 
城镇 居民 消费 支出 
农村 居民 消费 支出 


自 定 义 查询 


该 模块 提供 了 同一 爹 融 灵 种 内 相关 联 指标 的 组 台 查 询 ,操作 方 全 快捷 ,用户 可 | 
以 灵活 定义 各 种 指标 组 合 ， 定 制 所 需 的 数据 。 人 金融 类 数据 提供 : BR, H2. {E 
券 、 权 证 、 银 行 数 据 指标 的 自 定义 组 全 查询 ,经济 类 数据 提供 : 宏观 经 济 、 区 域 经 
济 、 世 界 经 济 、 工 业 行业 数据 指标 的 自 定义 组 合 查 询 . 


数据 中 心 


um 


nem inm RE 


图 A.3 CSMAR 数据 选择 
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APPENDIXES 
附录 二 
深圳 国泰 安 教育 技术 
股份 有 限 公司 简介 


深圳 国泰 安 教育 技术 股份 有 限 公 司 (以 下 简称 为 “国泰 安 或 “公司 ”) 是 一 家 为 教育 与 投 
资 业 提供 综合 解决 方案 的 国家 级 高 新 技术 企业 。 自 2000 年 以 来 ,国泰 安 一 直 致 力 于 为 国内 
外 教育 和 投资 机 构 提 供 集 * 研 究 数据 ,专业 实验 、 云 平台 建设 、 软 硬件 系统 和 增值 服务 ”为 一 
体 的 综合 性 解决 方案 。 公 司 的 产品 与 服务 主要 包括 为 高 等 教育 .职业 教育 .基础 教育 领域 提 
供 教研 ,教学 .管理 ,资源 、 实 验 及 增值 服务 全 方位 支持 的 * 易 ”系列 教育 服务 ,涵盖 中 国 证 券 、 
期 货 、 外 汇 、 宏 观 、 行 业 等 领域 的 “元 ”系列 精准 数据 服务 ,以 及 为 金融 机 构 提 供 全 套 量化 投资 
服务 方案 的 “ 宽 ” 系 列 金融 服务 ,对 推动 我 国教 育 创 新 及 金融 创新 做 出 了 较 大 的 贡献 。 

国泰 安 公司 总 部 位 于 科技 之 都 深圳 , 背 靠 国 际 经 济 金融、 贸易 中 心 香港 ,并 在 北京 、 上 
海 广州. 重庆、 香港 等 100 余 个 城市 设 有 分 公司 或 办 事 处 ,形成 通达 全 国 的 服务 网 络 。 同 
时 ,国泰 安 业 务 已 拓展 到 韩国 日本、 新 加 坡 、 美 国 、 澳 洲 . 中 国 香港 和 中 国 台湾 等 20 多 个 国 
家 和 地 区 ,为 全 球 2000 多 家 教育 机 构 、 研 究 机 构 .金融 机 构 客 户 提供 创 新 服务 。 

国泰 安 拥有 系统 .专业 的 事业 部 体系 ,为 包括 高 校 . 高 职 . 中 职 、 基 础 教育 领域 的 60 余 个 
专业 学 科 提供 教学 综合 解决 方案 ,涵盖 金融 财会 .商贸 管理 创业 就 业 ,物流 会 展 、 信 息 技 术 、 
工程 制造 .基础 建设 等 专业 ,并 得 到 学 校 的 高 度 认 可 和 广泛 应 用 。 同 时 ,公司 还 在 不 断 整 合 
国内 外 优质 教育 资源 ,进一步 丰富 产品 线 ,满足 学 校 更 多 专业 需求 ,为 用 户 提供 更 多 优秀 的 
教学 综合 解决 方案 。 

国泰 安 公 司 现 拥 有 3500 多 位 优秀 员工 ,研发 人 员 及 技术 工程 师 占 公司 人 数 的 60%。 
毕业 于 美国 宾夕法尼亚 大 学 得克萨斯 州立 大 学 .香港 理工 大 学 北京 大 学 清华 大 学 等 海内 
外 名 校 的 博士 、 硕 士 及 海外 留学 人 员 超 过 公司 人 数 的 30%. 100 多 位 来 自 普林斯顿 大 学 E 
港大 学 .北京 大 学 、 清 华 大 学 ` 上 海 交通 大 学 等 国内 外 著名 大 学 教授 .权威 学 者 组 成 国泰 安 顾 
问 团队 。30 余 家 海内 外 学 术 、 业 界 手 楚 ( 包 括 美 国 沃 顿 商 学 院 、 香 港大 学 \ 日 本 QUICK 、 韩 
国 EBSCO) 与 国泰 安达 成 长 期 合作 伙伴 关系 。 

近 5 年 来 ,国泰 安 研发 投入 3 亿 元 以 上 ,经 营业 绩 实现 连续 复合 增长 超过 100%。 至 今 
已 建立 起 规模 庞大 、 分 工 精细 的 三 大 管理 体系 ,40 多 个 事业 部 、60 余 个 专业 学 科 的 丰富 产品 
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线 , 拥 有 近 200 项 自主 创新 产品 专利 和 著作 权 产 品 ,完成 了 10 余 家 企业 并 购 整 合 ,实现 了 企 
业 跨 越 式 发 展 。 

2012 年 广东 省 电子 信息 (软件 ) 自 主创 新 产品 认证 的 71 个 项 目 , 国 泰安 独占 3 席 ; 国泰 
安 金 融 实 验 室 与 华为 .大 族 激光 等 知名 企业 喜 获 深圳 市 重点 自主 创新 产品 殊荣 ; 公司 已 通 
过 CMMI 三 级 认证 ,ISO9001:2008 质量 认证 , 且 荣 获 了 2013 年 中 国 年 度 创新 软件 产品 ( 易 
教育 平台 V1.0) .广东 省 守 合同 重信 用 企业 、 计 算 机 信息 系统 集成 企业 3 级 、 国 家 火炬 计划 
重点 高 新 技术 企业 、 国 家 规划 布局 内 重点 软件 企业 等 重要 资质 。 

国泰 安 在 国 内 率先 引进 欧美 国家 先进 的 教学 理念 ,并 结合 中 国 实际 探索 出 一 套 系统 、 先 
进 的 教学 综合 解决 方案 ,将 传统 的 实验 室 建 设 提升 为 融 “ 实 验 室 建设 、 校 企 共 建 、 资 源 共享 、 
品牌 提升 ”为 一 体 的 综合 解决 方案 ,确保 每 一 次 项 目的 完成 均 是 一 份 完美 的 答卷 。 

目前 ,公司 已 经 为 美国 ,英国 、 法 国 、 澳 洲 \ 日 本 、 新 加 坡 等 20 多 个 国家 和 地 区 的 2000 R 
家 客户 提供 了 卓越 的 产品 与 服务 。 在 中 国 , 为 北京 大 学 、 清 华 大 学 、 上 海 交 通 大 学 厦门 大 学 
等 知名 高 校 和 北京 电子 科技 职业 学 院 深圳 职业 技术 学 院 、 厦 门 城市 职业 学 院 等 职 校 提 供 综 
合 实验 解决 方案 ,积累 了 丰富 的 建设 经 验 , 可 为 用 户 提供 从 实验 室 设计 运营 .教学 资源 建设 、 
师资 队伍 培养 ,专业 合作 共 建 等 全 方位 的 服务 和 支持 。 

国泰 安 在 行业 内 独家 创新 推出 极 受 客户 认可 的 丰富 全 面 .周密 精深 、 专 属 订 制 、 面 向 未 
来 的 增值 服务 。 依 托 国泰 安 四 大 专业 服务 中 心 : 实验 软件 设备 设计 制造 中 心 .职业 教育 实 
验 服务 中 心 ,学 生 创业 就 业 服 务 中 心 . 校 企 合作 服务 中 心 ,向 客户 提供 包括 专业 共 建 ,合作 办 
学 ,科研 .课题 .论文 学 术 合作 , 校 际 专业 交流 ,资源 共享 ,合作 举办 大 型 学 术 论坛 .行业 峰会 ， 
建立 产 学 研 校 企 合作 联盟 ,学 校 品牌 战略 建设 等 增值 服务 ,与 客户 一 同 打造 品牌 化 .特色 化 
的 区 域 . 国 家 乃至 国际 教育 标杆 。 

读者 可 访问 公司 主页 http://www. gtaedu. com/13-3. html 获取 更 多 详情 。 
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